簡單的分了幾個步驟:
創新互聯是一家專注網站建設、網絡營銷策劃、微信平臺小程序開發、電子商務建設、網絡推廣、移動互聯開發、研究、服務為一體的技術型公司。公司成立十余年以來,已經為上千廣告制作各業的企業公司提供互聯網服務。現在,服務的上千客戶與我們一路同行,見證我們的成長;未來,我們一起分享成功的喜悅。
1、確定采集目標
2、獲取目標遠程頁面內容(curl、file_get_contents)
3、分析頁面html源碼,正則匹配你需要的內容(preg_match、preg_match_all),這一步最為重要,不同頁面正則匹配規則不一樣
4、入庫
?php
$url='abc.com/';
$data=get_file($url);
$pattern='你的內容正則表達式';
perg_match($pattern,$data,$match);
print_r($match);
function get_file($url)
{
$curl = curl_init($url);
curl_setopt($curl, CURLOPT_HEADER, 0);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
$data = curl_exec($curl);
return $data;
}
?
?php
/*
* 如下: 方法有點笨
* 抓取網頁內容用 PHP 的正則
* 用JS每隔5分鐘刷新當前頁面---即重新獲取網頁內容
*
* 注: $mode中--title/title-更改為所需內容(如 $mode = "#a(.*)/a#";獲取所有鏈接)
*
* window.location.href="";中的
* 更改為自己的URL----作用:即刷新當前頁面
*
* setInterval("ref()",300000);是每隔300000毫秒(即 5 * 60 *1000 毫秒即5分鐘)執行一次函數 ref()
*
* print_r($arr);輸出獲得的所有內容 $arr是一個數組 可根據所需輸出一部分(如 echo $arr[1][0];)
* 若要獲得所有內容 可去掉
* $mode = "#title(.*)/title#";
if(preg_match_all($mode,$content,$arr)){
print_r($arr);
echo "br/";
echo $arr[1][0];
}
再加上 echo $content;
*/
$url = ""; //目標站
$fp = @fopen($url, "r") or die("超時");
$content=file_get_contents($url);
$mode = "#title(.*)/title#";
if(preg_match_all($mode,$content,$arr)){
//print_r($arr);
echo "br/";
echo $arr[1][0];
}
?
script language="JavaScript" type="text/javascript"
--
function ref(){
window.location.href="";
}
setInterval("ref()",300000);
//--
/script
?php
$str
=
str
th1/th
td
class="key"a
href="網址1"
target="_blank"你要的地址1/a/td
th2/th
td
class="key"a
href="網址2"
target="_blank"你要的地址2/a/td
th3/th
td
class="key"a
href="網址3"
target="_blank"你要的地址3/a/td
th4/th
td
class="key"a
href="網址4"
target="_blank"你要的地址4/a/td
th5/th
td
class="key"a
href="網址5"
target="_blank"你要的地址5/a/td
str;
$p
=
'#td
class="key"a
href="(.*)"
target="_blank"(.*)/a/td#iUs';
preg_match_all($p,$str,$ar);
print_r($ar[0]);
?
$ar[0]
的所有值就是你想要的地址了
測試過
沒問題
文章名稱:php抓取網站指定數據 js獲取php數據
網站鏈接:http://m.kartarina.com/article22/hgsjcc.html
成都網站建設公司_創新互聯,為您提供網站建設、網站內鏈、品牌網站制作、手機網站建設、外貿網站建設、
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯