在python 3中使用urllib.request和request进行请求

时间:2018-11-08 04:41:54

标签: python html python-3.x web-scraping

我正在构建Web抓取应用程序,但遇到了问题。我已经为espn.com建立了类似的数据库,但是我正在尝试进行更全面,更有用的研究...

问题: urllib.request request 库未返回用于抓取的整个源代码;我仅获得足够的信息来刮擦其中一张桌子。这是我正在测试的当前网页: https://www.sports-reference.com/cfb/players/ryan-aplin-1.html

import pdb
import urllib.request as ureq
from bs4 import BeautifulSoup as BS 

def getPlayerStats (playerName, times): 
    url = "https://www.sports-reference.com/cfb/players/ryan-aplin-1.html"
    html = ureq.urlopen(url).read()
    print(html)

times = 1
getPlayerStats("Ryan Aplin", times)

“ times”变量用于一个单独的函数,该函数根据网站格式创建url,因此不适用于此处。

所以我的问题是:请求源URL时是否使用了错误的方法?我需要切换资源吗?

它在不同的网站上都可以使用,所以我不明白为什么它不能在这里使用。

谢谢。

0 个答案:

没有答案