Question

这是我在这里的第一篇文章。自从我从头开始学习python已经有5个月了，而且我确实通过这个论坛获得了我的大部分知识，而且我现在能够创建可以轻松抓取所有类型数据的webbots，尤其是体育博彩网站。

虽然对于这种特殊需要，但有一个网站无法提取我想要的内容：

我想获得所有足球比赛的所有链接（左侧，例如：

"https://www.winamax.fr/paris-sportifs#!/match/prelive/7894014"

但是当我看到源代码，或者当我打印我的汤时，我什么都没得到。

url = "https://www.winamax.fr/paris-sportifs#!/sports"
urlRequest = requests.get(url, proxies=proxies, headers=headers)
#of course, proxies and headers are defined beforehand
soup = BeautifulSoup(urlRequest.content)
print(soup)

对于我已经提出的所有博彩公司，总有一个简单的html树结构，其中所有项目都很容易找到，或隐藏的javascript文件，或json链接。但是对于这个，即使试图用Firebug捕捉流量，我也找不到任何相关的东西。

如果有人知道如何获得（我考虑使用PhantomJS但尚未尝试过），请提前感谢。

编辑：

@ssundarraj：下面是标题，我在所有项目中都使用过，所以在我看来并不相关，但无论如何，这里是：

AgentsFile='UserAgents.txt'
lines = open(AgentsFile).read().splitlines()
myline =random.choice(lines)
headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
    'Accept-Encoding':'gzip,deflate,sdch',
    'Accept-Language':'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
    'Referer' : 'https://www.winamax.fr',
    'User-Agent': myline}

EDIT2：

@Chris Lear

使用firebug，在网络面板中，您可以搜索所有的响应机构（有一个名为＆＃34的复选框;响应机构＆＃34;那个单击搜索框时出现。那会告诉你的 json正在获取数据。我会让你试着理解它，但这可能会给你一个开始（搜索ids可能是最好）

我检查了你上面提到的方框，但没有效果:( 无论是否使用过滤器，我的网络面板中都不会显示任何内容，如图所示：

nothing caught

Answer 1

使用过的萤火虫并找出它。使用参数：{/ p>向https://www.winamax.fr/betting/slider/slider.php发出POST请求

键= 050e42fb0761c96526e8510eda89248f
LANG = FR

不知道密钥是否在变化，但现在可以正常工作。

无法从此网址中提取数据

1 个答案: