python爬蟲爬取

python 爬取 博客園 接 螞蟻學pythonP5生產者消費者爬蟲數據重復問題

  • 先看訪問地址

    成都創新互聯公司自2013年創立以來,是專業互聯網技術服務公司,擁有項目成都做網站、成都網站建設、成都外貿網站建設網站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元遵義做網站,已為上家服務,為遵義各地企業和個人服務,聯系電話:13518219792

    • 訪問地址是https://www.cnblogs.com/#p2 但是實際訪問地址是https://www.cnblogs.com 說明其中存在貓膩;像這種我們給定指定頁碼,按理應該是 post 請求才對;于是乎 往下看了幾個連接

    • 然后再看一下payload 發現這個post 請求 才是我們想要的鏈接 其中PageIndex 就是我們要設置的頁數

  • 代碼擼起來

    # Author: Lovyya
    # File : blog_spider
    import requests
    import json
    from bs4 import BeautifulSoup
    import re
    # 這個是為和老師的urls一致性 匹配urls里面的數字
    rule = re.compile("\d+")
    
    urls = [f'https://www.cnblogs.com/#p{page}' for page in range(1, 31)]
    
    # pos請求網址
    url = "https://www.cnblogs.com/AggSite/AggSitePostList"
    headers = {
    	"content-type": "application/json",
    	"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30"
    }
    
    def craw(urls):
    	#idx 是'xxx.xxxx.xxx/#p{num}' 里面的num 這樣寫可以不用改 后面生產者消費者的代碼 
    	idx = rule.findall(urls)[0]
    	# payload參數 只需要更改 idx 就行
    	payload = {
    		"CategoryType": "SiteHome", 
    		"ParentCategoryId": 0, 
    		"CategoryId": 808, 
    		"PageIndex": idx,
    		"TotalPostCount": 4000, 
    		"ItemListActionName": "AggSitePostList"
    	}
    	r = requests.post(url, data=json.dumps(payload), headers=headers)
    	return r.text
    
    def parse(html):
    	# post-item-title
    	soup = BeautifulSoup(html, "html.parser")
    	links = soup.find_all("a", class_="post-item-title")
    	return [(link["href"], link.get_text()) for link in links]
    
    if __name__ == '__main__':
    	for res in parse(craw(urls[2])):
    		print(res)

分享標題:python爬蟲爬取
網站URL:http://m.kartarina.com/article16/dsogigg.html

成都網站建設公司_創新互聯,為您提供網站建設Google軟件開發企業網站制作網站收錄網站維護

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站優化排名
主站蜘蛛池模板: 亚洲av无码专区在线电影| 久久精品无码专区免费| 中文字幕无码第1页| 无码人妻精品一区二区三18禁| 亚洲av无码av制服另类专区| 成人免费午夜无码视频| 波多野结衣AV无码久久一区 | 国产av永久无码天堂影院| 久久久久久久无码高潮| 国产成人无码A区在线观看导航| 无码国内精品人妻少妇| 亚洲综合无码精品一区二区三区| 亚洲成a人无码亚洲成av无码| 亚洲AV无码一区二区三区DV| 久久午夜无码鲁丝片午夜精品| 无码人妻精品中文字幕免费东京热| 亚洲成AV人在线播放无码| 免费人妻无码不卡中文字幕18禁| 亚洲av无码久久忘忧草| 久久精品中文字幕无码| 一本色道无码道在线观看| 一本之道高清无码视频| 色综合无码AV网站| 无码熟妇人妻AV在线影院| 亚洲av无码专区在线电影| 中文无码一区二区不卡αv| 成人无码区免费A片视频WWW| 在线看无码的免费网站| 人妻少妇看A偷人无码电影| 久久久久无码精品国产| 精品亚洲A∨无码一区二区三区| 久久久久久AV无码免费网站| 亚洲精品无码不卡在线播放HE| 中文字幕丰满乱子无码视频| 无码国内精品久久人妻麻豆按摩 | 伊人久久大香线蕉无码| 亚洲精品偷拍无码不卡av| 久久青青草原亚洲av无码app | 亚洲AV无码成人精品区蜜桃| 亚洲日产无码中文字幕| 亚洲精品无码永久在线观看你懂的|