Python - beautifulsoup:删除特定标记内的元素

时间:2017-03-25 20:22:44

标签: python web-scraping scrapy bs4

我正在使用bs4尝试从互联网上获取数据,如果达到条件,我必须丢弃一些元素:

html_code = soup.findAll('tr', class_='class1')

我明白了:

<tr class=class1> <nobr><a href="link1.html">link</a> </nobr> text </tr>
<tr class=class1> <nobr><a href="link2.html">link</a> </nobr> text </tr>
<tr class=class1> <nobr><a href="link3.html">link</a> condition1 </nobr> text </tr>
<tr class=class1> <nobr><a href="link4.html">link</a> </nobr> text </tr>

我想用“condition1”消除元素并保留其他元素

<tr class=class1> <nobr><a href="link1.html">link</a> </nobr> text </tr>
<tr class=class1> <nobr><a href="link2.html">link</a> </nobr> text </tr>
<tr class=class1> <nobr><a href="link4.html">link</a> </nobr> text </tr>

最好的方法是什么?

另一个问题..它比bs4更好吗?

1 个答案:

答案 0 :(得分:1)

您可以像下面那样过滤

app.php