我正在构建Web抓取应用程序,但遇到了问题。我已经为espn.com建立了类似的数据库,但是我正在尝试进行更全面,更有用的研究...
问题: urllib.request 和 request 库未返回用于抓取的整个源代码;我仅获得足够的信息来刮擦其中一张桌子。这是我正在测试的当前网页: https://www.sports-reference.com/cfb/players/ryan-aplin-1.html
import pdb
import urllib.request as ureq
from bs4 import BeautifulSoup as BS
def getPlayerStats (playerName, times):
url = "https://www.sports-reference.com/cfb/players/ryan-aplin-1.html"
html = ureq.urlopen(url).read()
print(html)
times = 1
getPlayerStats("Ryan Aplin", times)
“ times”变量用于一个单独的函数,该函数根据网站格式创建url,因此不适用于此处。
所以我的问题是:请求源URL时是否使用了错误的方法?我需要切换资源吗?
它在不同的网站上都可以使用,所以我不明白为什么它不能在这里使用。
谢谢。