python對虎牙進行小姐姐視頻采集,舞蹈區內容真熱鬧~

前言

嗨嘍,大家好!這里是魔王吶~

科爾沁右翼前網站制作公司哪家好,找成都創新互聯公司!從網頁設計、網站建設、微信開發、APP開發、響應式網站設計等網站項目制作,到程序開發,運營維護。成都創新互聯公司2013年開創至今到現在10年的時間,我們擁有了豐富的建站經驗和運維經驗,來保證我們的工作的順利進行。專注于網站建設就選成都創新互聯公司


環境使用:

  • Python 3.8 解釋器<運行代碼>

  • Pycharm 編輯器 <寫代碼>


模塊使用]:

  • requests >>> 數據請求 第三方模塊 pip install requests <工具>
  • re <正則表達式模塊>

如果安裝python第三方模塊:

  1. win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車
  2. 在pycharm中點擊Terminal(終端) 輸入安裝命令

如何配置pycharm里面的python解釋器?

  1. 選擇file(文件) >>> setting(設置) >>> Project(項目) >>> python interpreter(python解釋器)
  2. 點擊齒輪, 選擇add
  3. 添加python安裝路徑

pycharm如何安裝插件?

  1. 選擇file(文件) >>> setting(設置) >>> Plugins(插件)
  2. 點擊 Marketplace 輸入想要安裝的插件名字 比如:翻譯插件 輸入 translation / 漢化插件 輸入 Chinese
  3. 選擇相應的插件點擊 install(安裝) 即可
  4. 安裝成功之后 是會彈出 重啟pycharm的選項 點擊確定, 重啟即可生效

基本思路流程:

一. 分析數據來源

找尋網址上面視頻數據來自于哪里

開發者工具進行抓包..

  1. 鼠標右鍵點擊檢查 或者 F12打開開發者工具
  2. 刷新網頁
  3. 找尋視頻數據...<通過media里找尋視頻url地址>
  4. 找視頻url地址來于那個數據包 >>> 通過視頻url地址中一段參數進行搜索, 建議是搜.mp4前面這段內容...

二, 代碼實現過程: 對于某些網站 可能需要多次請求,

  1. 發送請求, 對于找到視頻數據包發送請求
  2. 獲取數據, 獲取服務器返回響應數據
  3. 解析數據, 提取我們想要數據內容 視頻url地址 視頻標題
    ....
  4. 保存數據, 保存視頻數據到本地文件夾

多個視頻采集 <視頻數據包url地址變化規律>


代碼

# 導入模塊
import requests import requests # 數據請求模塊 import pprint # 格式化輸出模塊 import re
for page in range(2, 6): print(f'正在采集第{page}頁的數據內容') link= f'https://v.huya.com/g/all?set_id=51&order=hot&page={page}' headers= { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36' } html_data= requests.get(url=link, headers=headers).text # print(html_data) # 使用re正則表達式提取數據 從什么地方去獲取什么數據 #<li data-vid="(\d+)"><a href=".*?" 加了括號是我們想要數據內容 \d+ 匹配多個數字 .*? 可以匹配任意字符(除了換行符\n) video_id_list= re.findall('<li data-vid="(\d+)"><a href=".*?"', html_data) print(video_id_list) for video_id in video_id_list: url= f'https://liveapi.huya.com/moment/getMomentContent?videoId={video_id}&uid=&_=' # 偽裝python代碼 在開發者工具里復制 user-agent 用戶代理 表示瀏覽器基本身份表示 # headers請求頭, 可以python代碼偽裝成瀏覽器對于url地址發送請求<作用防止被識別出來是爬蟲程序> # cookie 用戶信息, 常用于檢測是否登陸賬號<無論登陸與否 都有一個cookie> # headers= { #'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36' # } # 通過requests模塊里面get請求方法對于url地址發送請求, 并且攜帶上headers請求頭偽裝, 最后用自定義變量response接受返回數據 response= requests.get(url=url, headers=headers) # print(response.json()) #<Response [200]> 200表示請求成功 response.json() 返回數據一定是完整json數據格式 # pprint.pprint(response.json()) # 解析數據 字典取值 根據鍵值對取值 {'': '', '鍵1': '值1'} 根據冒號左邊的內容<鍵>, 提取冒號右邊的內容<值> title= response.json()['data']['moment']['title'] title= re.sub(r'[\/:*?"<>|\n\r\t]', '', title) video_url= response.json()['data']['moment']['videoInfo']['definitions'][0]['url'] print(title) print(video_url)
# 保存數據 需要對于視頻播放地址, 發送請求獲取數據內容 video_content
= requests.get(url=video_url, headers=headers).content with open('video\\' + title +video_id + '.mp4', mode='wb') as f: # as 重命名為 f f.write(video_content) # f= open('video\\' + title + '.mp4', mode='wb') # f.write(video_content) # f.close()

本文名稱:python對虎牙進行小姐姐視頻采集,舞蹈區內容真熱鬧~
文章轉載:http://m.kartarina.com/article40/dsoggho.html

成都網站建設公司_創新互聯,為您提供電子商務App設計Google微信小程序響應式網站面包屑導航

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

微信小程序開發
主站蜘蛛池模板: 一本久道综合在线无码人妻| 内射中出无码护士在线| 中文字幕在线无码一区二区三区| 亚洲成AV人片在线观看无码| 亚洲国产精品无码中文字| av无码久久久久久不卡网站| 中文字幕在线无码一区二区三区| 亚洲国产成AV人天堂无码 | 精品久久久久久无码中文字幕一区| 无码av天天av天天爽| 无码AV片在线观看免费| 亚洲av无码不卡私人影院| 无码h黄动漫在线播放网站| 国产激情无码一区二区三区| 伊人天堂av无码av日韩av| 小SAO货水好多真紧H无码视频| 无码国产成人午夜电影在线观看| 亚洲AV无码国产精品色| 不卡无码人妻一区三区音频 | 无码一区二区波多野结衣播放搜索| 内射无码专区久久亚洲| 无码一区二区三区AV免费| 国产激情无码一区二区| 久久av高潮av无码av喷吹| 亚洲国产精品无码久久98 | 亚洲AV无码AV男人的天堂不卡 | 久久久久久亚洲Av无码精品专口 | 无码少妇一区二区三区| 亚洲av无码不卡私人影院| 大胆日本无码裸体日本动漫| 亚洲av无码专区在线电影| 精品无码一区二区三区爱欲 | 亚洲日韩精品无码专区加勒比 | 无码一区二区三区AV免费| 精品久久久久久无码专区不卡| 国产爆乳无码一区二区麻豆| 亚洲AV无码一区东京热久久| 亚洲av无码一区二区三区乱子伦| 国产99久久九九精品无码| 狠狠躁天天躁无码中文字幕| 国产99久久九九精品无码|