刮掉oddsportal信息

时间:2016-01-14 09:24:19

标签: javascript parsing python-3.x beautifulsoup scrape

我正在使用Python 3.5,实际上我专注于使用BeautifulSoup / lxml / Selenium / PhantomJS进行网页编写

我只是试图通过Python代码来破解我需要的所有数据。

我可以使用BeautifulSoup轻松地从静态HTML网址中抓取信息。 我最近发现了如何从动态网址获取信息,使用Chrome上的网络标签,并在XHR选项下查看出现的HTTPrequest。 它通常给我从JS生成的html代码,在这种情况下,我可以继续使用BS4将其拼写为正则表达式。 但实际上我正在开展一个关于从www.oddsportal.com上刮取赔率的新项目 在这种情况下,我真的很困惑如何在XHR下进行原因我无法找到继续抓取的有效内容。 尝试并重试,我发现我可以从这样的网址中抓取信息:

例如,我的链接是: http://www.oddsportal.com/soccer/england/premier-league/tottenham-sunderland-UBtChnLa/

我发现真正有趣的链接是:

http://fb.oddsportal.com/feed/match/1-1-UBtChnLa-1-2-yjc11.dat?_=1452760985069

在这里你可以找到我需要的每一个赔率但是当我试图刮掉它时它会给我一个错误:

globals.jsonpCallback

我知道我必须在python中学习json库,但我真的很困惑如何继续。 能帮我解释一下吗?我真的很想专注于这类项目,所以我想了解更多,但我知道我对此的了解实际上非常低。 感谢您的任何信息!

1 个答案:

答案 0 :(得分:0)

您是否尝试使用xpath抓取html?您可能会发现它比使用正则表达式更容易。您也可以查看HtmlAgilityPack for C#,它非常适合网页抓取。