BeautifulSoup Library的HTML解析问题

时间:2014-12-27 20:39:32

标签: python html parsing beautifulsoup html-parsing

我正在使用BS库进行HTML解析。我的任务是删除头标记之间的所有内容。因此,如果我有<head> A lot of Crap! </head>,则结果应为<head></head>。这是它的代码

raw_html = "entire_web_document_as_string"
soup = BeautifulSoup(raw_html)
head = soup.head
head.unwrap()
print(head)

这很好用。但我希望这些更改应该在包含整个html文档的raw_html字符串中进行。如何在原始字符串中反映这些命令,而不仅仅是head字符串?你可以分享一个代码片段吗?

1 个答案:

答案 0 :(得分:2)

您基本上要求如何从BS的soup对象中导出HTML字符串。

你可以这样做:

# Python 2.7
modified_raw_html = unicode(soup)

# Python3
modified_raw_html = str(soup)