无法从此网址中提取数据

时间:2015-11-20 10:49:08

标签: python web-scraping beautifulsoup

这是我在这里的第一篇文章。自从我从头开始学习python已经有5个月了,而且我确实通过这个论坛获得了我的大部分知识,而且我现在能够创建可以轻松抓取所有类型数据的webbots,尤其是体育博彩网站。

虽然对于这种特殊需要,但有一个网站无法提取我想要的内容:

winamax

我想获得所有足球比赛的所有链接(左侧,例如:

"https://www.winamax.fr/paris-sportifs#!/match/prelive/7894014"

但是当我看到源代码,或者当我打印我的汤时,我什么都没得到。

url = "https://www.winamax.fr/paris-sportifs#!/sports"
urlRequest = requests.get(url, proxies=proxies, headers=headers)
#of course, proxies and headers are defined beforehand
soup = BeautifulSoup(urlRequest.content)
print(soup)

对于我已经提出的所有博彩公司,总有一个简单的html树结构,其中所有项目都很容易找到,或隐藏的javascript文件,或json链接。 但是对于这个,即使试图用Firebug捕捉流量,我也找不到任何相关的东西。

如果有人知道如何获得(我考虑使用PhantomJS但尚未尝试过),请提前感谢。

编辑:

@ssundarraj: 下面是标题,我在所有项目中都使用过,所以在我看来并不相关,但无论如何,这里是:

AgentsFile='UserAgents.txt'
lines = open(AgentsFile).read().splitlines()
myline =random.choice(lines)
headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
    'Accept-Encoding':'gzip,deflate,sdch',
    'Accept-Language':'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
    'Referer' : 'https://www.winamax.fr',
    'User-Agent': myline}

EDIT2:

@Chris Lear

  

使用firebug,在网络面板中,您可以搜索所有的   响应机构(有一个名为&#34的复选框;响应机构"那个   单击搜索框时出现。那会告诉你的   json正在获取数据。我会让你试着理解   它,但这可能会给你一个开始(搜索ids可能是   最好)

我检查了你上面提到的方框,但没有效果:( 无论是否使用过滤器,我的网络面板中都不会显示任何内容,如图所示:

nothing caught

1 个答案:

答案 0 :(得分:0)

使用过的萤火虫并找出它。 使用参数:{/ p>向https://www.winamax.fr/betting/slider/slider.php发出POST请求

  • 键= 050e42fb0761c96526e8510eda89248f
  • LANG = FR

不知道密钥是否在变化,但现在可以正常工作。