BeautifulSoup连续块

时间:2015-04-07 23:29:25

标签: python html beautifulsoup web-crawler

我使用BeautifulSoup来解析我抓取的HTML数据, 我正在看的模式是

<div>
....
</div>
<p>
...
</p>

我关心的内容总是包含div,后跟 p 子句。当然,html中还有其他独立的 div p 标签,但 p 后跟 div 是我想要的独特模式

帮助知道如何在beautifulSoup中实现查询连续标签非常感激

1 个答案:

答案 0 :(得分:1)

有相关的.next_sibling.next_siblings.find_next_sibling() and .find_next_siblings()方法可以帮助您找到divp兄弟姐妹:

div = soup.find("div", id="test")
p = div.find_next_sibling("p") 

您还可以使用"adjacent" CSS selector

soup.select("div#test + p")