php網站制作中curl采集需要注意的一些地方和技巧

2023-03-17    分類: 網站建設

PHP網站制作中經常需要采集其他網站的數據,有些細節問題會導致遇到很大麻煩,至于攻防采集在此不細說,下面創新互聯記錄一下采集過程中的幾個要點需要注意的地方
1、首先要獲取到對方網址的所有內容,可能你會想到用file_gets_contents來獲取,但此函數不適合用于獲取遠程文件,用于打開本地txt文件還是蠻好用的。那么用什么來獲取呢?Curl,這個php的擴展來處理。下面就是一個簡單的獲取網頁內容的基本配置,更多參數配置可以到網上去搜。
php網站制作
2、在采集網頁匹配數據時,特別是在列表頁,可以先把獲取到的對方所有的空格換行等html標簽去掉,寫起正則來就會容易很多。這里提供一個函數:cul采集函數
3、在獲取到對方的數據的時候就要開始正則匹配了,這里介紹幾個常有的匹配規則:
一個是任意字符(.*?),另一個是([\s\S]*?)表示包括換行符的任意字符,在匹配過程中夠用了。然后選擇匹配模式i即可。
4、介紹一下采集的思路,可以先把符合頁面的數據下載下來保存為txt文件,再來本地處理就更快一些。還有就是為了避免頻繁訪問對方網站或數據丟失狀態可以加一個while(){}循環或是sleep()暫停幾秒來處理。把相關的數據庫處理函數要封裝好,直接調用。
5、還有一個重要的事情,很多人可能會忽略,就是頁面的編碼問題,如果對方網站是gbk的編碼,則相應的php文件或是用于提交條件的html文件也會是gbk的編碼。但是這會存在一個問題,就是發生在gbk的html向gbk的php頁面提交中文數據的時候,gbk的php文件可能就不會給你反應,如果你用這些中文數據去匹配的時候會遇到問題。于是要轉變思路,utf-8是好的編碼模式,所以我們要采用utf-8的編碼,而對方的又是gbk的,如何做呢?
$allcontent =iconv('gbk', 'utf-8',removetag(curl_exec($ch)));
上面的這樣轉換就ok了!所有的都用utf-8

本文題目:php網站制作中curl采集需要注意的一些地方和技巧
文章轉載:http://m.kartarina.com/news21/245071.html

成都網站建設公司_創新互聯,為您提供面包屑導航做網站、企業網站制作、移動網站建設、云服務器小程序開發

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

營銷型網站建設
主站蜘蛛池模板: 久久久精品天堂无码中文字幕| 人妻无码αv中文字幕久久琪琪布 人妻无码第一区二区三区 | 免费无码H肉动漫在线观看麻豆| 无码AV大香线蕉| 亚洲v国产v天堂a无码久久| 国产成人无码一区二区在线观看 | 久久精品岛国av一区二区无码| 亚洲精品中文字幕无码AV| 亚洲AV日韩AV无码污污网站| 成年无码av片在线| 亚洲国产精品无码久久久不卡| 无码少妇一区二区浪潮免费| 国产成人无码综合亚洲日韩| 精品无码成人久久久久久| 亚洲人成无码网站| 日韩免费a级毛片无码a∨| 中文字幕丰满伦子无码| 色国产色无码色欧美色在线| 无码人妻精品一区二区在线视频| 国产午夜激无码av毛片| 久久精品亚洲AV久久久无码| 精品久久久久久无码中文字幕| 中文字幕无码高清晰| 亚洲国产精品无码专区在线观看| 精品人妻系列无码人妻漫画| 精品少妇无码AV无码专区| 亚洲成AV人片在线播放无码| 无码人妻少妇久久中文字幕 | 中文字幕无码精品亚洲资源网| 无码人妻丰满熟妇区96| 亚洲日韩乱码中文无码蜜桃臀网站| 亚洲av永久无码天堂网| 精品少妇无码AV无码专区| 无码一区二区三区在线观看| 中文字字幕在线中文无码| 国产成人精品一区二区三区无码 | 亚洲av中文无码乱人伦在线播放 | 少妇爆乳无码专区| 精品欧洲AV无码一区二区男男| 无码中文字幕日韩专区| 无码精品久久久久久人妻中字|