0%

[Python] 爬蟲修改 User-Agent 標頭

前言

爬蟲是一個很方便的工具,可以自動化且大量分析網頁,將別人的網頁當作自己資料庫,但也因為如此,有些網頁會偵測連線來源是否為爬蟲工具,若是的話會阻擋 (404),或者有些會顯示出與正常使用瀏覽器瀏覽時不一樣的內容。

環境

  • python 3.8.5

修改

Python 爬蟲第一步大多數是使用 requests 這個套件,它內建的請求標頭 User-Agentpython-requests/2.24.0,也許版本號會不同,但一看就知道是爬蟲而不是真的使用者的連線請求,所以應用程式可根據這個線索來拒絕服務。但「道高一尺,魔高一丈」不是沒有道理的,只要我們改了 User-Agent,就能繞過根據這個標頭欄位過濾請求的網站

1
2
3
4
5
6
import requests

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"}

url = "http://abcde.example.com"
response = requests.get(url, headers = headers)

這時,所有的請求標頭 User-Agent 都將顯示為 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36

很高興能在這裡幫助到您,歡迎登入 Liker 為我鼓掌 5 次,或者成為我的讚賞公民,鼓勵我繼續創造優質文章。
以最優質的內容回應您的鼓勵