我想用BeautifulSoup解析html页面的一部分。
这是我的代码:
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
body = """Some text
<body{block:PermalinkPage} class="inside"{/block:PermalinkPage}>
Some text
"""
print BeautifulSoup(body, 'html5lib')
输出
<html><head></head><body>Some text
<body{block:permalinkpage} block:permalinkpage}="" class="inside" {="">
Some text
</body{block:permalinkpage}></body></html>
所需的输出是
<html><head></head><body>Some text
<body{block:PermalinkPage} class="inside"{/block:PermalinkPage}>
Some text
</body{block:permalinkpage}></body></html>
为什么BeautifulSoup会如此改变这段代码?是否有可能像我期望的那样强迫它发挥作用?我应该用什么库来获得所需的输出?