下面是代码的基础。我知道我如何检索这些页面适用于其他URL的事实,因为我只是编写了一个脚本以相同的方式抓取另一个页面。但是,有了这个特定的URL,我的脸上总是抛出“ urllib.error.HTTPError:HTTP错误404:找不到” 。我用另一个URL(https://www.premierleague.com/clubs)替换了URL,它可以正常工作。我是python的新手,所以也许我还没有找到真正的基本步骤或知识,但是我在网上找到的与此相关的资源似乎并不相关。任何建议都很好,谢谢。
以下是脚本的准系统:
import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import csv
myurl = "https://www.transfermarkt.co.uk/premier-league/startseite/wettbewerb/GB1"
uClient = uReq(myurl)
答案 0 :(得分:1)
问题很可能是您尝试访问的站点正在积极阻止蜘蛛爬网;您可以更改用户代理来规避它。有关更多信息,请参见this question(该文章中规定的解决方案似乎也适用于您的url)。
如果要使用urllib this post告诉您如何更改用户代理。