用beautifulsoup刮取数据导致404

时间:2017-01-28 11:09:47

标签: python web-scraping beautifulsoup web-crawler

我想从以下网址http://www.transfermarkt.co.uk/wettbewerbe/europa

中抓取数据

我巧妙地使用BeautifulSoup来完成这项工作。但这一次,我收到 404错误,但我不知道为什么,因为我可以通过浏览器访问该页面。

这是我的代码:

    url = 'http://www.transfermarkt.co.uk/wettbewerbe/europa'
    response = urllib.request.urlopen(url)
    soup = BeautifulSoup(response)
    print(soup)

我收到此错误:第2行urllib.error.HTTPError: HTTP Error 404: Not Found

为什么会发生这种情况?

1 个答案:

答案 0 :(得分:1)

import requests, bs4
url = 'http://www.transfermarkt.co.uk/wettbewerbe/europa'
headers = {"User-Agent":"Mozilla/5.0"}
response = requests.get(url, headers=headers)
soup = bs4.BeautifulSoup(response.text, 'lxml')
print(soup)

User-Agent添加到请求标头,我使用requests库,您可以使用urllib执行相同的操作