【爬蟲實例3】異步爬取大量數(shù)據(jù)

1、導(dǎo)入模塊

import requests
import csv
from concurrent.futures import ThreadPoolExecutor

2、先獲取第一個頁面的內(nèi)容

分析得到該頁面的數(shù)據(jù)是從getPriceData.html頁面獲取,并保存在csv文件中

創(chuàng)新互聯(lián)長期為成百上千家客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為皇姑企業(yè)提供專業(yè)的成都網(wǎng)站制作、成都網(wǎng)站設(shè)計,皇姑網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。

得到url地址后,提取第一個頁面內(nèi)容

def download(url, num):
    resp = requests.post(url).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
   


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    download(url)
    print('success')

** 此為第一個頁面信息提取:**

3、獲取更多的信息

分析頁面數(shù)據(jù)顯示規(guī)律,請求地址時頁面攜帶頁碼和需要顯示數(shù)據(jù)的條數(shù),一共頁,每頁20條數(shù)據(jù)

設(shè)置100個線程提取頁數(shù)據(jù),同時每次請求時傳入頁碼

def download(url, num):
    data = {
        "limit": 20,
        "current": num
    }
    resp = requests.post(url, data=data).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
    print(f'{num}頁提取完成')


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    # 設(shè)置100個線程
    with ThreadPoolExecutor(100) as t:
        for i in range(1, ):
            t.submit(download(url, i))
    print('success')

4、完整代碼

4、完整代碼

# 1、提取單頁面

import requests
import csv
from concurrent.futures import ThreadPoolExecutor

f = open("data.csv", mode="w", encoding="utf-8")
csvwrite = csv.writer(f)


def download(url, num):
    data = {
        "limit": 20,
        "current": num
    }
    resp = requests.post(url, data=data).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
    print(f'{num}頁提取完成')


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    # 設(shè)置100個線程
    with ThreadPoolExecutor(100) as t:
        for i in range(1, ):
            t.submit(download(url, i))
    print('success')

以下為第1頁~第199頁數(shù)據(jù):

網(wǎng)頁名稱:【爬蟲實例3】異步爬取大量數(shù)據(jù)
網(wǎng)站鏈接:http://m.kartarina.com/article44/dsogiee.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司ChatGPT軟件開發(fā)網(wǎng)站設(shè)計域名注冊企業(yè)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司
主站蜘蛛池模板: 亚洲av无码国产精品色在线看不卡 | 韩国无码AV片在线观看网站| 精品成在人线AV无码免费看| 无码粉嫩虎白一线天在线观看| 日韩精品无码视频一区二区蜜桃| 国产精品无码专区| 亚洲中文无码av永久| 中文无码久久精品| (无码视频)在线观看| 人妻少妇偷人精品无码| 黄桃AV无码免费一区二区三区| 午夜无码性爽快影院6080| 亚洲av无码不卡一区二区三区| 国产AV无码专区亚洲AV蜜芽 | 日韩人妻无码精品一专区| 亚洲AV无码专区在线厂| 99久久人妻无码精品系列 | 人妻少妇伦在线无码专区视频| 国产真人无码作爱免费视频| 国产精品爽爽V在线观看无码| 日韩亚洲AV无码一区二区不卡| 中文有无人妻vs无码人妻激烈| h无码动漫在线观看| 国模无码一区二区三区| 日日摸夜夜添无码AVA片| 无码人妻精品一区二区三区在线 | 久久久久久无码国产精品中文字幕| 久久久久久精品无码人妻| 无码孕妇孕交在线观看| 曰韩精品无码一区二区三区| 国产AⅤ无码专区亚洲AV| 四虎影视无码永久免费| 国产AV无码专区亚洲AWWW| 亚洲欧洲无码AV电影在线观看| 国产裸模视频免费区无码| 无码日韩人妻AV一区二区三区| 高清无码一区二区在线观看吞精| 国产精品无码2021在线观看| 五月婷婷无码观看| 日韩精品无码一区二区三区AV | 久久人妻内射无码一区三区|