Question

我正在使用bs4尝试从互联网上获取数据，如果达到条件，我必须丢弃一些元素：

html_code = soup.findAll('tr', class_='class1')

我明白了：

<tr class=class1> <nobr><a href="link1.html">link</a> </nobr> text </tr>
<tr class=class1> <nobr><a href="link2.html">link</a> </nobr> text </tr>
<tr class=class1> <nobr><a href="link3.html">link</a> condition1 </nobr> text </tr>
<tr class=class1> <nobr><a href="link4.html">link</a> </nobr> text </tr>

我想用“condition1”消除元素并保留其他元素

<tr class=class1> <nobr><a href="link1.html">link</a> </nobr> text </tr>
<tr class=class1> <nobr><a href="link2.html">link</a> </nobr> text </tr>
<tr class=class1> <nobr><a href="link4.html">link</a> </nobr> text </tr>

最好的方法是什么？

另一个问题..它比bs4更好吗？

Answer 1

您可以像下面那样过滤

app.php

Python - beautifulsoup：删除特定标记内的元素

1 个答案: