前言
爬蟲是一個很方便的工具,可以自動化且大量分析網頁,將別人的網頁當作自己資料庫,但也因為如此,有些網頁會偵測連線來源是否為爬蟲工具,若是的話會阻擋 (404),或者有些會顯示出與正常使用瀏覽器瀏覽時不一樣的內容。
環境
- python 3.8.5
修改
Python
爬蟲第一步大多數是使用 requests
這個套件,它內建的請求標頭 User-Agent
為 python-requests/2.24.0
,也許版本號會不同,但一看就知道是爬蟲而不是真的使用者的連線請求,所以應用程式可根據這個線索來拒絕服務。但「道高一尺,魔高一丈」不是沒有道理的,只要我們改了 User-Agent
,就能繞過根據這個標頭欄位過濾請求的網站
1 | import requests |
這時,所有的請求標頭 User-Agent
都將顯示為 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36
。