我使用BeautifulSoup来解析我抓取的HTML数据, 我正在看的模式是
<div>
....
</div>
<p>
...
</p>
我关心的内容总是包含div,后跟 p 子句。当然,html中还有其他独立的 div 和 p 标签,但 p 后跟 div 是我想要的独特模式
帮助知道如何在beautifulSoup中实现查询连续标签非常感激
答案 0 :(得分:1)
有相关的.next_sibling
,.next_siblings
,.find_next_sibling()
and .find_next_siblings()
方法可以帮助您找到div
和p
兄弟姐妹:
div = soup.find("div", id="test")
p = div.find_next_sibling("p")
您还可以使用"adjacent" CSS selector:
soup.select("div#test + p")