使用BeautifulSoup,Python 3.3.2从HTML中抓取某些元素

时间:2017-09-04 07:52:11

标签: python html web-scraping beautifulsoup

我从一个网站抓取数据,该网站统一保存多个网页中的数据,网页如下:

https://www.topsport.com.au/Racing/Thoroughbreds/Kalgoorlie/R3/3975255

我使用BeautifulSoup从#,Runner和Flucs列中抓取数据,以便我可以按照我认为合适的方式对其进行整理。我成功地刮了它们,但是对于划伤的马没有用处。当我从字段中删除数据时,这些马会出现。你应该注意到,划伤的马匹包含在标记为划痕的tr类标签中,并且不包含在未命名的tr类中的马匹。

来自网页的HTML,显示不同的类

<tr>...</tr> #classes that I want elements from
<tr class="scratched">...</tr> #classes I don't want elements from

这是我用来从网页上收集准备使用的数据的代码。

ccnum = {'class' : 'competitorNumColumn'}
name = {'class' : 'rnnrName'}

saddC = soup.findAll(attrs = ccnum)
run = soup.findAll(attrs = name)

competitorNumColumn和rnnrName出现在这两个类中,并且是我想要的元素的标识符。

问题: 我可以在Python代码中添加什么异常,以便除了tr.scratched容器中包含的元素之外,将删除所有元素?

0 个答案:

没有答案