删除python中两个html标签之间的所有数据

时间:2012-11-30 20:11:07

标签: python html web-scraping beautifulsoup

我正在制作一个webscraper,我想完全删除一些div,因为我不需要对数据进行分析。 我正在使用Beautiful Soup来解析数据,但我无法弄清楚如何完全消除div

1 个答案:

答案 0 :(得分:1)

您可以使用以下内容:

>>> import bs4
>>> blah = '<div id="test"><p>one</p></div><div id="okay"><p>something</p></div>'
>>> soup = bs4.BeautifulSoup(blah)
>>> soup('div', {'id': 'test'})[0].extract()
<div id="test"><p>one</p></div>
>>> soup
<html><body><div id="okay"><p>something</p></div></body></html>