Question

我正在构建Web抓取应用程序，但遇到了问题。我已经为espn.com建立了类似的数据库，但是我正在尝试进行更全面，更有用的研究...

问题： urllib.request 和 request 库未返回用于抓取的整个源代码；我仅获得足够的信息来刮擦其中一张桌子。这是我正在测试的当前网页： https://www.sports-reference.com/cfb/players/ryan-aplin-1.html

import pdb
import urllib.request as ureq
from bs4 import BeautifulSoup as BS 

def getPlayerStats (playerName, times): 
    url = "https://www.sports-reference.com/cfb/players/ryan-aplin-1.html"
    html = ureq.urlopen(url).read()
    print(html)

times = 1
getPlayerStats("Ryan Aplin", times)

“ times”变量用于一个单独的函数，该函数根据网站格式创建url，因此不适用于此处。

所以我的问题是：请求源URL时是否使用了错误的方法？我需要切换资源吗？

它在不同的网站上都可以使用，所以我不明白为什么它不能在这里使用。

谢谢。

在python 3中使用urllib.request和request进行请求

0 个答案: