在可访问的页面上出现 404 错误

时间:2021-07-05 11:20:28

标签: python web-scraping

我创建了一个数据抓取工具来从网站抓取定价数据。它就像一个魅力 直到有一天它停止工作。

page = requests.get(url)   #url is the url of the page I am scraping
contents = page.content
soup = BeautifulSoup(contents, 'html.parser') 
#start parsing the page using BeautifulSoup

现在,当 requests.get(url) 被执行时,我收到了一个 http 404 错误消息。我知道页面在那里,因为可以从浏览器访问 URL。

我很确定添加了额外的安全性以允许对 url 的限制访问。 有没有办法绕过 404 消息?

1 个答案:

答案 0 :(得分:0)

我试过了,我没有收到任何错误,所以我认为这是关于你的 user_agent。像这样尝试:

import requests
from bs4 import BeautifulSoup as bs

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}

url = "https://finance.yahoo.com/quote/NXPI/options?p=NXPI&date=1629417600&guccounter=1"

page = requests.get(url, headers=headers).text
soup = bs(page,'html.parser')
print(soup)
相关问题