python爬蟲調度器怎么用

小編給大家分享一下python爬蟲調度器怎么用,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

在濮陽等地區,都構建了全面的區域性戰略布局,加強發展的系統性、市場前瞻性、產品創新能力,以專注、極致的服務理念,為客戶提供成都網站建設、做網站 網站設計制作按需定制設計,公司網站建設,企業網站建設,高端網站設計,營銷型網站建設,成都外貿網站建設,濮陽網站建設費用合理。

我們可以編寫幾個元件,每個元件完成一項功能,下圖中的藍底白字就是對這一流程的抽象:

python爬蟲調度器怎么用

  • UrlManager:將存儲和獲取url以及url去重的幾個步驟在url管理器中完成(當然也可以針對每一步分別編寫相應的函數,但是這樣更直觀)。url管理器要有兩個url倉庫,一個存儲未爬取的url,一個存儲已爬取的url,除了倉庫之外,還應該具有一些完成特定功能的函數,如存儲url、url去重、從倉庫中挑選并返回一個url等

  • HtmlDownloader:將下載網頁內容的功能在HTML下載器中完成,下載器的功能較為單一,不多解釋。但從整個爬蟲的角度上來說,下載器是爬蟲的核心,在實際操作的過程中,下載器要和目標網站的各種反爬蟲手段斗智斗勇(各種表單、隱藏字段和假鏈接、驗證碼、IP限制等等),這也是最耗費大腦的步驟

  • HtmlParser:解析提取數據的功能在HTML解析器中完成,解析器內的函數應該分別具有返回數據和新url的功能

  • DAtaOutput:存儲數據的功能由數據存儲器完成

  • SpiderMan:主循環由爬蟲調度器來完成,調度器為整個程序的入口,將其余四個元件有序執行

爬蟲調度器將要完成整個循環,下面寫出python下爬蟲調度器的程序:

# coding: utf-8
new_urls = set()
data = {}
 
class SpiderMan(object):
    def __init__(self):
        #調度器內包含其它四個元件,在初始化調度器的時候也要建立四個元件對象的實例
        self.manager = UrlManager()
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()
        self.output = DataOutput()
 
    def spider(self, origin_url):
        #添加初始url
 
        self.manager.add_new_url(origin_url)
        #下面進入主循環,暫定爬取頁面總數小于100
        num = 0
        while(self.manager.has_new_url() and self.manager.old_url_size()<100):
            try:
                num = num + 1
                print "正在處理第{}個鏈接".format(num)
                #從新url倉庫中獲取url
                new_url = self.manager.get_new_url()
                #調用html下載器下載頁面
                html = self.downloader.download(new_url)
                #調用解析器解析頁面,返回新的url和data
                try:
                    new_urls, data = self.parser.parser(new_url, html)
                except Exception, e:
                    print e
                for url in new_urls:
                    self.manager.add_new_url(url)
                #將已經爬取過的這個url添加至老url倉庫中
                self.manager.add_old_url(new_url)
                #將返回的數據存儲至文件
                try:
                    self.output.store_data(data)
                    print "store data succefully"
                except Exception, e:
                    print e
                print "第{}個鏈接已經抓取完成".format(self.manager.old_url_size())
 
            except Exception, e:
                print e
        #爬取循環結束的時候將存儲的數據輸出至文件
        self.output.output_html()

以上是“python爬蟲調度器怎么用”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注創新互聯行業資訊頻道!

分享題目:python爬蟲調度器怎么用
網站路徑:http://m.kartarina.com/article42/pphdec.html

成都網站建設公司_創新互聯,為您提供外貿網站建設ChatGPT商城網站響應式網站網站改版網站建設

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站優化排名
主站蜘蛛池模板: 无码熟妇人妻AV在线影院| 亚洲av无码一区二区三区乱子伦 | 亚洲AV综合色区无码二区偷拍| 2019亚洲午夜无码天堂| 国产成人精品无码一区二区老年人 | 无码精品A∨在线观看中文| 无码毛片一区二区三区中文字幕 | 免费人妻无码不卡中文字幕系| 亚洲成?v人片天堂网无码| 无码任你躁久久久久久老妇App| 免费无码又爽又刺激高潮| 亚洲av无码成人影院一区| 国产成人无码精品久久久性色| 无码h黄肉3d动漫在线观看| 亚洲av无码国产精品色午夜字幕 | 亚洲国产成人精品无码区在线秒播| 色综合热无码热国产| 精品无码免费专区毛片| 亚洲一区二区三区AV无码 | 亚洲大尺度无码无码专区| 免费一区二区无码视频在线播放| 欧洲人妻丰满av无码久久不卡| 中文字幕无码乱人伦| 国产精品午夜无码av体验区| 亚洲中文字幕无码久久2020| 亚洲成A∨人片在线观看无码| 成在线人免费无码高潮喷水| 国产色无码精品视频免费| 色欲aⅴ亚洲情无码AV| 亚洲AV无码成人网站在线观看| av潮喷大喷水系列无码| 日韩精品真人荷官无码| 亚洲AV无码乱码国产麻豆| 亚洲情XO亚洲色XO无码| 中文字幕丰满乱子伦无码专区| 中文字幕无码毛片免费看| 免费看无码特级毛片| 精品人妻无码专区中文字幕| 无码精品一区二区三区在线| 亚洲av无码专区国产乱码在线观看 | 久久亚洲国产成人精品无码区|