我想从以下网址http://www.transfermarkt.co.uk/wettbewerbe/europa
我巧妙地使用BeautifulSoup来完成这项工作。但这一次,我收到 404错误,但我不知道为什么,因为我可以通过浏览器访问该页面。
这是我的代码:
url = 'http://www.transfermarkt.co.uk/wettbewerbe/europa'
response = urllib.request.urlopen(url)
soup = BeautifulSoup(response)
print(soup)
我收到此错误:第2行urllib.error.HTTPError: HTTP Error 404: Not Found
。
为什么会发生这种情况?
答案 0 :(得分:1)
import requests, bs4
url = 'http://www.transfermarkt.co.uk/wettbewerbe/europa'
headers = {"User-Agent":"Mozilla/5.0"}
response = requests.get(url, headers=headers)
soup = bs4.BeautifulSoup(response.text, 'lxml')
print(soup)
将User-Agent
添加到请求标头,我使用requests
库,您可以使用urllib
执行相同的操作