我创建了一个数据抓取工具来从网站抓取定价数据。它就像一个魅力 直到有一天它停止工作。
page = requests.get(url) #url is the url of the page I am scraping
contents = page.content
soup = BeautifulSoup(contents, 'html.parser')
#start parsing the page using BeautifulSoup
现在,当 requests.get(url) 被执行时,我收到了一个 http 404 错误消息。我知道页面在那里,因为可以从浏览器访问 URL。
我很确定添加了额外的安全性以允许对 url 的限制访问。 有没有办法绕过 404 消息?
答案 0 :(得分:0)
我试过了,我没有收到任何错误,所以我认为这是关于你的 user_agent。像这样尝试:
import requests
from bs4 import BeautifulSoup as bs
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}
url = "https://finance.yahoo.com/quote/NXPI/options?p=NXPI&date=1629417600&guccounter=1"
page = requests.get(url, headers=headers).text
soup = bs(page,'html.parser')
print(soup)