scrapy學習筆記1---一個爬取的完整例子-創新互聯

一、創建工程

創新互聯是一家專業提供友好企業網站建設,專注與成都網站設計、成都網站建設H5頁面制作、小程序制作等業務。10年已為友好眾多企業、政府機構等服務。創新互聯專業網站建設公司優惠進行中。

scrapy startproject dmoz

二、建立dmoz_spider.py

from scrapy.spider import Spider
from scrapy.selector import Selector
 
from dmoz.items import DmozItem
 
 
class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    ]
 
    def parse(self, response):
        """
        The lines below is a spider contract. For more info see:
        http://doc.scrapy.org/en/latest/topics/contracts.html
 
        @url http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/
        @scrapes name
        """
        sel = Selector(response)
        sites = sel.xpath('//ul[@class="directory-url"]/li')
        items = []
 
        for site in sites:
            item = DmozItem()
            item['name'] = site.xpath('a/text()').extract()
            item['url'] = site.xpath('a/@href').extract()
            item['description'] = site.xpath('text()').re('-\s[^\n]*\\r')
            items.append(item)
 
        return items

三、改寫items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

from scrapy.item import Item, Field
 
 
class DmozItem(Item):
    name = Field()
    description = Field()
    url = Field()

四、改寫pipeline.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

from scrapy.item import Item, Field
 
 
class DmozItem(Item):
    name = Field()
    description = Field()
    url = Field()

五、在dmoz文件夾根目錄執行

scrapy crawl dmoz -o dmoz.json

運行spider

另外有需要云服務器可以了解下創新互聯scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

本文題目:scrapy學習筆記1---一個爬取的完整例子-創新互聯
網頁鏈接:http://m.kartarina.com/article0/ccgcio.html

成都網站建設公司_創新互聯,為您提供定制開發用戶體驗電子商務軟件開發域名注冊建站公司

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站優化排名
主站蜘蛛池模板: 在线观看无码不卡AV| 好爽毛片一区二区三区四无码三飞 | 成人年无码AV片在线观看| 日韩精品无码一区二区三区四区| 日日摸夜夜添无码AVA片 | 午夜成人无码福利免费视频| 国产成人无码区免费A∨视频网站| 亚洲美日韩Av中文字幕无码久久久妻妇| 亚洲精品无码久久毛片| 国产精品免费无遮挡无码永久视频| 精品无码国产自产在线观看水浒传| 亚洲av中文无码乱人伦在线r▽ | 国产在线无码视频一区| 亚洲人成国产精品无码| 精品国产V无码大片在线看| 综合国产在线观看无码| 无码中文字幕乱码一区| 日韩午夜福利无码专区a| 亚洲国产精品无码专区影院| 亚洲aⅴ无码专区在线观看 | 亚洲最大av无码网址| 内射中出无码护士在线| 精品亚洲AV无码一区二区三区 | 亚洲av永久无码精品网站| 无码aⅴ精品一区二区三区| 免费A级毛片av无码| 国产乱妇无码大片在线观看| 一本色道无码不卡在线观看| 日韩精品无码一区二区三区AV | 国产亚洲情侣一区二区无码AV | 久99久无码精品视频免费播放| 久久男人Av资源网站无码软件| 亚洲毛片av日韩av无码| 无码8090精品久久一区| 免费无码精品黄AV电影| 国产嫖妓一区二区三区无码| 日韩少妇无码一区二区三区| 亚洲色无码专区一区| 日韩av无码国产精品| 小12箩利洗澡无码视频网站| 亚洲AV永久无码精品一福利|