我正在使用BeautifulSoup
v4来解析出一串HTML,如下所示:
<!DOCTYPE HTML>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office">
<head></head>
<body><p>Hello, world</p></body>
</html>
以下是我解析它的方法:
soup = BeautifulSoup(html)
其中html
是上面粘贴的HTML。无论出于何种原因,BS会使用标准标记替换<html>
标记,而不使用额外的元信息。我可以告诉BS不要这样做吗?
答案 0 :(得分:0)
我能够通过将html5lib
作为HTML解析器传递给BS来解决这个问题。但是,现在,它一直在DOCTYPE
<!--<!DOCTYPE HTML-->