由于這個例子比較簡單,所以這里我就省略掉分析請求的步驟了,直接來分析一下瀏覽器看到的效果與源碼分別長什么樣,找找有沒有什么突破口吧。
創新互聯公司始終堅持【策劃先行,效果至上】的經營理念,通過多達10年累計超上千家客戶的網站建設總結了一套系統有效的全網整合營銷推廣解決方案,現已廣泛運用于各行各業的客戶,其中包括:石牌坊等企業,備受客戶稱贊。
這是瀏覽器看到的效果:
可以在源碼中看到部分內容被
<span class="context_kwx"></span>
替換。
打開瀏覽器的
開發者模式
,看看隱藏的文字是什么樣子的:
cdn.nlark.com/yuque/0/2020/webp/1313084/1589287177467-0a19a791-7fd1-4fc8-9664-92c0faf93a5b.webp">
第二個是下圖中在返回時的判斷語句,同樣是對 Node 中不存在的屬性進行判斷,所以也需要在這里進行相應的修改。
第二個修改點可以像這樣改:
以上兩點修改完后就可以獲取到所有被替換過的字符了,接下來只需要把它們替換進 HTML 里就可以還原出正常的頁面。替換的步驟這里就不再演示了,因為非常簡單,一看就會。當然反爬蟲有很多的方法,這個只是其中一個,所以只是大概的講述了下。但是不管使用什么方式采集數據都是一個長期的過程,所以需要配合代理才能更好的獲取數據,而億牛云提供的爬蟲代理就能更好的助力我們進行數據采集,尤其是加強版,效果會更好。
分享標題:實例講解Style–CSS在反爬蟲中的應用
網址分享:http://m.kartarina.com/article38/jedssp.html
成都網站建設公司_創新互聯,為您提供App設計、網站建設、用戶體驗、自適應網站、Google、網站導航
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容