pyhon爬蟲模擬網頁登陸、正則表達式

前言:不是每個網頁都能模擬成功,僅供學習

發展壯大離不開廣大客戶長期以來的信賴與支持,我們將始終秉承“誠信為本、服務至上”的服務理念,堅持“二合一”的優良服務模式,真誠服務每家企業,認真做好每個細節,不斷完善自我,成就企業,實現共贏。行業涉及成都混凝土攪拌機等,在網站建設成都全網營銷推廣、WAP手機網站、VI設計、軟件開發等項目上具有豐富的設計經驗。

模擬網頁登陸

--安裝模塊--
pip install urllib (運行cmd輸入此段代碼即可安裝)

點擊查看代碼
from urllib import request
import urllib
from http import cookiejar

# 定義文件名
filename = 'cookie.txt'

# 聲明一個cookie,傳入文件名
cookie = cookiejar.MozillaCookieJar(filename)

# 定義cookie處理
handler = request.HTTPCookieProcessor(cookie)

# 定義下載器,傳入處理器
opener = request.build_opener(handler)

# 定義登錄用的賬號密碼

postdata = urllib.parse.urlencode({

    'username': '賬號',
    'password': '密碼'
}).encode(encoding='UTF8')

# url
loginUrl = '網站'

# 模擬登錄頁面
resp = opener.open(loginUrl, postdata)

# 保存cookie到文件

cookie.save(ignore_discard=True, ignore_expires=True)

# 再次訪問網站
url2 = "網站"

# 打開頁面
try:
    result = opener.open(url2)
except request.HTTPError as e:
    if hasattr(e, "code"):
        print(e.code)
except request.URLError as e:
    if hasattr(e, "reason"):
        print(e.reason)
else:
    print(result.read())

正則表達式

了解正則表達式
正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來表達對字符串的一種過濾邏輯。
安裝模塊
pip install re (運行cmd輸入此段代碼即可安裝)

import re
將正則表達式編譯成Pattern對象,注意hello前面的r的意思是“原生字符串”
pattern = re.compile(r'hello')
使用re.match匹配文本,獲得匹配結果,無法匹配時將返回None
result1 = re.match(pattern,'hello')
result2 = re.match(pattern,'helloo YC!')
result3 = re.match(pattern,'helo YC!')
result4 = re.match(pattern,'hello YC!')
match表示從頭開始匹配 匹配不到返回none
search可以從任意位置匹配

認識匹配規則字符:

點擊查看代碼
import re

# 定義正則化規則=匹配模式,r表示原生字符串
rexg = re.compile(r'\d*\w*')
res = re.search(rexg, 'ddddddddddddd5')
print(res)

rexg1 = re.compile(r'\d+\w*')
res1 = re.search(rexg1, 'pppppddddddddddddd5')
print(res1)

rexg2 = re.compile(r'\d?dddddd')
res2 = re.search(rexg2, 'pppppddddddddddddd5')
print(res2)

# 電話號碼
rexg3 = re.compile(r'1\d{10}')
res3 = re.search(rexg3, '')
print(res3)

# 定義郵箱
rexg4 = re.compile(r'\d{5,12}@\w{2}\.\w{3}')
res4 = re.search(rexg4, '1sdfsdfdsfdsdfs@qq.com')
print(res4)

rexg5 = re.compile(r'\d+')
res5 = re.search(rexg5, '11sdfsdfdsfdsdfs@qq.com')
print(res5)

rexg6 = re.compile(r'\d{5,12}? ?')
res6 = re.search(rexg6, '11sdfsdfdsfdsdfs6477d09191@qq.com')
print(res6)

# 邊界匹配-匹配字符串開頭
rexg7 = re.compile(r'\Aabc')
res7 = re.search(rexg7, 'abcqqqqqqqqqabccttttttttttt'
                        'abcctttttttttabc')
print(res7)

# 任意

rexg8 = re.compile(r'1\d{10}|\d{5,12}@\w{2}\.\w{3}')

res8 = re.search(rexg8, "sahsyhs1dgashgshasdag@qq.com")
print(res8)

# 分組

rexg9 = re.compile(r'(abc){3}')
res9 = re.search(rexg9, "zUJXHUJHXuabcabcabcosaojaodiabcosajosabc")
print(res9)

# 分組 + 別名
rexg10 = re.compile(r'(?P<tt>abc)888(?P=tt)')
res10 = re.search(rexg10, "hasghsabc888abc")
print(res10)

# 分組 + 編號

rexg11 = re.compile(r'(\d{5})uu\1')

res11 = re.search(rexg11, "uu")
print(res11)

新聞名稱:pyhon爬蟲模擬網頁登陸、正則表達式
瀏覽路徑:http://m.kartarina.com/article6/dsojoog.html

成都網站建設公司_創新互聯,為您提供虛擬主機App設計軟件開發網站維護品牌網站制作Google

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

h5響應式網站建設
主站蜘蛛池模板: 国产人成无码视频在线观看| 毛片无码一区二区三区a片视频| 久久无码av亚洲精品色午夜| 无码中文字幕av免费放| 东京热一精品无码AV| 日产无码1区2区在线观看| 亚洲精品人成无码中文毛片 | 无码国产精成人午夜视频不卡| 无码专区永久免费AV网站| 精品无码一级毛片免费视频观看| 日韩精品无码人成视频手机| 亚洲va无码手机在线电影| 亚洲av无码av在线播放| 国产爆乳无码一区二区麻豆| 久久国产精品无码HDAV| 亚洲成a人在线看天堂无码| 未满小14洗澡无码视频网站| 永久免费AV无码网站在线观看 | 亚洲日韩AV无码一区二区三区人| 精品无码久久久久久国产| 无码h黄动漫在线播放网站| 无遮掩无码h成人av动漫| 午夜福利av无码一区二区| 免费无遮挡无码永久在线观看视频| 日韩精品无码一区二区中文字幕 | 无码人妻精品一区二区三区99性| 无码人妻精品一二三区免费| 久久人妻少妇嫩草AV无码专区| 精品少妇人妻av无码专区| 麻豆亚洲AV永久无码精品久久| 亚洲 无码 在线 专区| 亚洲成a人无码亚洲成www牛牛| 中文字幕日韩精品无码内射| 无码一区二区三区免费视频| 亚洲日韩国产精品无码av| 国产aⅴ无码专区亚洲av| 成人无码区免费A∨直播| 国产精品无码一区二区在线观一| 色综合久久久无码网中文| 久久午夜福利无码1000合集| 亚洲国产精品无码久久久蜜芽 |