从网站中提取表格

时间:2015-03-31 18:08:57

标签: python html parsing beautifulsoup urllib2

我已多次尝试在此网站上检索该表格: http://www.whoscored.com/Players/845/History/Tomas-Rosicky (#34;历史参与"

import urllib2 
from bs4 import BeautifulSoup 
soup = BeautifulSoup(urllib2.urlopen('http://www.whoscored.com/Players/845/').read())

这是我用来检索表格html的Python代码,但我得到一个空字符串。救救我!

1 个答案:

答案 0 :(得分:1)

所需的表是通过异步API调用形成的http://www.whoscored.com/StatisticsFeed/1/GetPlayerStatistics端点请求,返回JSON响应。换句话说,urllib2会返回页面的初始HTML内容,而不包含"动态"部分。换句话说,urllib2不是浏览器。

您可以使用浏览器开发者工具

来研究请求

enter image description here

现在,您需要在代码中模拟此请求。 requests package是你应该考虑使用的东西。

以下是我之前回答过whoscored.com的类似问题,您可以使用示例工作代码作为起点: