Python爬蟲框架的組成需要具備什么功能

這篇文章主要介紹Python爬蟲框架的組成需要具備什么功能,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

成都創新互聯主要從事網站設計制作、成都網站設計、網頁設計、企業做網站、公司建網站等業務。立足成都服務海南州,十余年網站建設經驗,價格優惠、服務專業,歡迎來電咨詢建站服務:18980820575

1、組成

爬蟲框架需要具備哪些功能。Scrapy,pyspider有http請求庫,html解析工具,數據庫存儲等,但其實最核心的是他們的調度(scheduler)程序:即如何讓你的請求,解析,存儲協同工作。

一個最小的爬蟲框架只需要一套調度程序就可以了,其他的請求,解析,存儲都可以作為框架的擴展來使用,比如:gaoxinge/spidery。另外既然一個最小的爬蟲框架只有一套調度程序,那么它也可以用來做非爬蟲的工作。

2、實例

# -*- coding: utf-8 -*-
"""
url: https://stackoverflow.com/questions
fetch: requests
parse: lxml
presist: txt
"""
import requests
from lxml import etree
from spidery import Spider
 
spider = Spider(
    urls = ['http://stackoverflow.com/questions/?page=' + str(i) + '&sort=votes' for i in range(1, 4)],
)
 
@spider.fetch
def fetch(url):
    response = requests.get(url)
    return response
 
@spider.parse
def parse(response):
    root = etree.HTML(response.text)
    results = root.xpath('//div[@class=\'question-summary\']')
    for result in results:
        question = {}
        question['votes']   = result.xpath('div[@class=\'statscontainer\']//strong/text()')[0]
        question['answers'] = result.xpath('div[@class=\'statscontainer\']//strong/text()')[1]
        question['views']   = result.xpath('div[@class=\'statscontainer\']/div[@class=\'views supernova\']/text()')[0].strip()
        question['title']   = result.xpath('div[@class=\'summary\']/h4/a/text()')[0]
        question['link']    = result.xpath('div[@class=\'summary\']/h4/a/@href')[0]
        yield question, None
 
@spider.presist
def presist(item):
    f.write(str(item) + '\n')
 
f = open('stackoverflow.txt', 'wb')
spider.consume_all()
f.close()

python的數據類型有哪些?

python的數據類型:1. 數字類型,包括int(整型)、long(長整型)和float(浮點型)。2.字符串,分別是str類型和unicode類型。3.布爾型,Python布爾類型也是用于邏輯運算,有兩個值:True(真)和False(假)。4.列表,列表是Python中使用最頻繁的數據類型,集合中可以放任何數據類型。5. 元組,元組用”()”標識,內部元素用逗號隔開。6. 字典,字典是一種鍵值對的集合。7. 集合,集合是一個無序的、不重復的數據組合。

以上是“Python爬蟲框架的組成需要具備什么功能”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注創新互聯行業資訊頻道!

網頁名稱:Python爬蟲框架的組成需要具備什么功能
文章起源:http://m.kartarina.com/article36/pphpsg.html

成都網站建設公司_創新互聯,為您提供網頁設計公司微信公眾號手機網站建設標簽優化移動網站建設網站排名

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

搜索引擎優化
主站蜘蛛池模板: 无码H肉动漫在线观看| 亚洲熟妇无码一区二区三区导航| 亚洲av永久无码一区二区三区| 亚洲精品偷拍无码不卡av| 国产精品无码一区二区三区不卡 | 国产V亚洲V天堂A无码| 无码日本精品XXXXXXXXX| 久久伊人中文无码| 一级片无码中文字幕乱伦| 九九无码人妻一区二区三区| 亚洲午夜无码毛片av久久京东热 | 无码激情做a爰片毛片AV片| 99无码人妻一区二区三区免费| 东京无码熟妇人妻AV在线网址| 无码国产亚洲日韩国精品视频一区二区三区| 亚洲自偷自偷偷色无码中文| 免费一区二区无码视频在线播放 | 人妻丰满av无码中文字幕| 亚洲国产精品无码久久久秋霞2| 免费A级毛片无码免费视| 亚洲国产av高清无码| 无码精品日韩中文字幕| 红桃AV一区二区三区在线无码AV| 蜜桃臀无码内射一区二区三区| 亚洲韩国精品无码一区二区三区| 伊人久久无码精品中文字幕| 久久精品无码中文字幕| 好爽毛片一区二区三区四无码三飞| 久久久亚洲精品无码| 亚洲综合一区无码精品| 久久综合精品国产二区无码| 无码无遮挡又大又爽又黄的视频| 波多野结衣AV无码久久一区| 精品久久久久久无码免费| 国产精品99无码一区二区| 亚洲精品无码日韩国产不卡?V| 亚洲AV无码乱码在线观看| 亚洲精品无码成人片在线观看 | 潮喷失禁大喷水aⅴ无码| 人妻无码久久中文字幕专区 | 67194成l人在线观看线路无码|