- 作(zuò)者:admin
- 發表時(shí)間(jiān):2013-07-02 14:16:55
- 來(lái)源:未知
當我們需要采集網絡上(shàng)的某個(gè)網頁內(nèi)容時(shí),如果目标網站(zhàn)上(shàng)的圖片做(zuò)了防盜鏈的話(huà),我們直接采集過來(lái)的圖片在自己網站(zhàn)上(shàng)是不可(kě)用的。那(nà)麽我們使用程序将目标網站(zhàn)上(shàng)的圖片下載到我們網站(zhàn)服務器(qì)上(shàng),然後就可(kě)調用圖片了。
本文将使用PHP實現采集遠程圖片功能。基本流程:
1、獲取目标網站(zhàn)圖片地址。
2、讀取圖片內(nèi)容。
3、創建要保存圖片的路徑并命名圖片名稱。
4、寫入圖片內(nèi)容。
5、完成。
我們通(tōng)過寫幾個(gè)函數(shù)來(lái)實現這一過程。
函數(shù)make_dir()建立目錄。判斷要保存的圖片文件目錄是否存在,如果不存在則創建目錄,并且将目錄設置為(wèi)可(kě)寫權限。
function make_dir($path){ if(!file_exists($path)){//不存在則建立 $mk=@mkdir($path,0777); //權限 @chmod($path,0777); } return true; }
函數(shù)read_filetext()取得(de)圖片內(nèi)容。使用fopen打開(kāi)圖片文件,然後fread讀取圖片文件內(nèi)容。
function read_filetext($filepath){ $filepath=trim($filepath); $htmlfp=@fopen($filepath,"r"); //遠程 if(strstr($filepath,"://")){ while($data=@fread($htmlfp,500000)){ $string.=$data; } } //本地 else{ $string=@fread($htmlfp,@filesize($filepath)); } @fclose($htmlfp); return $string; }
函數(shù)write_filetext()寫文件,将圖片內(nèi)容fputs寫入文件中,即保存圖片文件。
function write_filetext($filepath,$string){ //$string=stripSlashes($string); $fp=@fopen($filepath,"w"); @fputs($fp,$string); @fclose($fp); }
函數(shù)get_filename()獲取圖片名稱,也可(kě)以自定義要保存的文件名。
function get_filename($filepath){ $fr=explode("/",$filepath); $count=count($fr)-1; return $fr[$count]; }
然後将幾個(gè)函數(shù)組合,在函數(shù)save_pic()中調用,最後返回保存後的圖片路徑。
function save_pic($url,$savepath=''){ //處理(lǐ)地址 $url=trim($url); $url=str_replace(" ","%20",$url); //讀文件 $string=read_filetext($url); if(empty($string)){ echo '讀取不了文件';exit; } //文件名 $filename = get_filename($url); //存放目錄 make_dir($savepath); //建立存放目錄 //文件地址 $filepath = $savepath.$filename; //寫文件 write_filetext($filepath,$string); return $filepath; }
最後一步就是調用save_pic()函數(shù)保存圖片,我們使用以下代碼做(zuò)測試。
//目标圖片地址 $pic = "http://img0.pconline.com.cn/pconline/1205/06/2776119_end1_thumb.jpg"; //保存目錄 $savepath = "images/"; echo save_pic($pic,$savepath);
實際應用中,我們可(kě)能會(huì)采集某個(gè)站(zhàn)點的內(nèi)容,比如産品信息,包括采集防盜鏈的圖片保存到網站(zhàn)上(shàng)服務器(qì)上(shàng)。這時(shí)我們可(kě)以使用正則匹配頁面內(nèi)容,将頁面中相匹配的圖片都找出來(lái),然後分别下載到網站(zhàn)服務器(qì)上(shàng),完成圖片的采集。以下代碼僅供測試:
function get_pic($cont,$path){ $pattern_src = '/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/'; $num = preg_match_all($pattern_src, $cont, $match_src); $pic_arr = $match_src[1]; //獲得(de)圖片數(shù)組 foreach ($pic_arr as $pic_item) { //循環取出每幅圖的地址 save_pic($pic_item,$path); //下載并保存圖片 echo "[OK]..!"; } }
然後我們通(tōng)過分析頁面內(nèi)容,将主體(tǐ)內(nèi)容找出來(lái),調用get_pic()實現圖片的保存。
//我們采集太平洋電(diàn)腦(nǎo)網上(shàng)一篇關于手機報道(dào)內(nèi)容頁的圖片 $url = "http://gz.pconline.com.cn/321/3215791.html"; $content = file_get_contents($url);//獲取網頁內(nèi)容 $preg = '#(.*)#iUs'; preg_match_all($preg, $content, $arr); $cont = $arr[1][0]; get_pic($cont,'img/');
以上(shàng)代碼筆者親測,可(kě)以采集圖片,但(dàn)是還(hái)有(yǒu)些(xiē)場(chǎng)景沒考慮進去,比如目标網站(zhàn)做(zuò)了302多(duō)次跳(tiào)轉的,目标網站(zhàn)做(zuò)了多(duō)種防采集的,留給喜歡折騰的同學去試試吧(ba)。