如何在python中抓取复杂表?

时间:2019-03-06 12:11:49

标签: python sorting html-table beautifulsoup lxml

因此,在尝试了许多站点并发现Beautiful Soup无法找到所有必需的类之后,我试图从页面上消除赔率,我进入了这一类。问题是,其格式确实很差。无论如何,这是我的代码。

import requests
import lxml.html as lh

tennis_url = requests.get("http://odds.aussportsbetting.com/betting?competitionid=1", headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'})
page = lh.fromstring(tennis_url.content)
tr_elements = page.xpath('//tr')
print([len(T) for T in tr_elements[0:-1]])

这是网站:http://odds.aussportsbetting.com/betting?competitionid=1

这告诉我,每一行都有许多不同的列,并且他们几乎都使用表格来构建整个网站?

我确实需要一些帮助,并且想要对所有这些行和列进行排序以获取所需的行。更具体地说,赔率:0

非常感谢您的帮助!

0 个答案:

没有答案