Question

我创建了一个数据抓取工具来从网站抓取定价数据。它就像一个魅力直到有一天它停止工作。

page = requests.get(url)   #url is the url of the page I am scraping
contents = page.content
soup = BeautifulSoup(contents, 'html.parser') 
#start parsing the page using BeautifulSoup

现在，当 requests.get(url) 被执行时，我收到了一个 http 404 错误消息。我知道页面在那里，因为可以从浏览器访问 URL。

我很确定添加了额外的安全性以允许对 url 的限制访问。有没有办法绕过 404 消息？

Answer 1

我试过了，我没有收到任何错误，所以我认为这是关于你的 user_agent。像这样尝试：

import requests
from bs4 import BeautifulSoup as bs

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}

url = "https://finance.yahoo.com/quote/NXPI/options?p=NXPI&date=1629417600&guccounter=1"

page = requests.get(url, headers=headers).text
soup = bs(page,'html.parser')
print(soup)

在可访问的页面上出现 404 错误

1 个答案: