Question

下面是代码的基础。我知道我如何检索这些页面适用于其他URL的事实，因为我只是编写了一个脚本以相同的方式抓取另一个页面。但是，有了这个特定的URL，我的脸上总是抛出“ urllib.error.HTTPError：HTTP错误404：找不到” 。我用另一个URL（https://www.premierleague.com/clubs）替换了URL，它可以正常工作。我是python的新手，所以也许我还没有找到真正的基本步骤或知识，但是我在网上找到的与此相关的资源似乎并不相关。任何建议都很好，谢谢。

以下是脚本的准系统：

import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import csv

myurl = "https://www.transfermarkt.co.uk/premier-league/startseite/wettbewerb/GB1"

uClient = uReq(myurl)

Answer 1

问题很可能是您尝试访问的站点正在积极阻止蜘蛛爬网；您可以更改用户代理来规避它。有关更多信息，请参见this question（该文章中规定的解决方案似乎也适用于您的url）。

如果要使用urllib this post告诉您如何更改用户代理。

urllib.request上的Python 404

1 个答案: