Question

我正在使用BS库进行HTML解析。我的任务是删除头标记之间的所有内容。因此，如果我有<head> A lot of Crap! </head>，则结果应为<head></head>。这是它的代码

raw_html = "entire_web_document_as_string"
soup = BeautifulSoup(raw_html)
head = soup.head
head.unwrap()
print(head)

这很好用。但我希望这些更改应该在包含整个html文档的raw_html字符串中进行。如何在原始字符串中反映这些命令，而不仅仅是head字符串？你可以分享一个代码片段吗？

Answer 1

您基本上要求如何从BS的soup对象中导出HTML字符串。

你可以这样做：

# Python 2.7
modified_raw_html = unicode(soup)

# Python3
modified_raw_html = str(soup)