从BeautifulSoup我得到一个特定标签的列表,一些标签只包含链接,没有更多文本。当我在这些上使用get_text()
方法时,我会得到链接的描述。
但是当标签仅包含<a href>
元素时,我想忽略它。
Tag: <p class="abc">text1 <a href=...>desc</a> text2</p> -> result: text1 desc text2 (OKAY)
Tag: <p class="abc"><a href=...>desc</a></p> -> result: desc (NOT OKAY)
当标签只包含链接时,我想过滤掉它们。我怎么能这样做?
答案 0 :(得分:1)
我们的想法是迭代p
代码并检查是否只有一个包含a
代码的子代:
from bs4 import BeautifulSoup
data = """
<div>
<p class="abc">text1 <a href='http://mysite1.com'>desc1</a> text2</p>
<p class="abc"><a href='http://mysite2.com'>desc2</a></p>
<p class="abc"><a href='http://mysite3.com'>desc3</a>text3</p>
<p class="abc">text4<a href='http://mysite4.com'>des4</a></p>
<p class="abc">text5</p>
</div>
"""
soup = BeautifulSoup(data)
for p in soup('p', class_='abc'):
if len(p.contents) == 1 and p.contents[0].name == 'a':
print p
打印:
<p class="abc"><a href="http://mysite2.com">desc2</a></p>
仅供参考,.contents
包含代码的子项列表。