Question

我想从以下网址http://www.transfermarkt.co.uk/wettbewerbe/europa

中抓取数据

我巧妙地使用BeautifulSoup来完成这项工作。但这一次，我收到 404错误，但我不知道为什么，因为我可以通过浏览器访问该页面。

这是我的代码：

    url = 'http://www.transfermarkt.co.uk/wettbewerbe/europa'
    response = urllib.request.urlopen(url)
    soup = BeautifulSoup(response)
    print(soup)

我收到此错误：第2行urllib.error.HTTPError: HTTP Error 404: Not Found。

为什么会发生这种情况？

Answer 1

import requests, bs4
url = 'http://www.transfermarkt.co.uk/wettbewerbe/europa'
headers = {"User-Agent":"Mozilla/5.0"}
response = requests.get(url, headers=headers)
soup = bs4.BeautifulSoup(response.text, 'lxml')
print(soup)

将User-Agent添加到请求标头，我使用requests库，您可以使用urllib执行相同的操作

用beautifulsoup刮取数据导致404

1 个答案: