我正在使用BS库进行HTML解析。我的任务是删除头标记之间的所有内容。因此,如果我有<head> A lot of Crap! </head>
,则结果应为<head></head>
。这是它的代码
raw_html = "entire_web_document_as_string"
soup = BeautifulSoup(raw_html)
head = soup.head
head.unwrap()
print(head)
这很好用。但我希望这些更改应该在包含整个html文档的raw_html
字符串中进行。如何在原始字符串中反映这些命令,而不仅仅是head
字符串?你可以分享一个代码片段吗?
答案 0 :(得分:2)
您基本上要求如何从BS的soup
对象中导出HTML字符串。
你可以这样做:
# Python 2.7
modified_raw_html = unicode(soup)
# Python3
modified_raw_html = str(soup)