Question

我正在使用BeautifulSoup v4来解析出一串HTML，如下所示：

<!DOCTYPE HTML>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office">
<head></head>
<body><p>Hello, world</p></body>
</html>

以下是我解析它的方法：

soup = BeautifulSoup(html)

其中html是上面粘贴的HTML。无论出于何种原因，BS会使用标准标记替换<html>标记，而不使用额外的元信息。我可以告诉BS不要这样做吗？

Answer 1

我能够通过将html5lib作为HTML解析器传递给BS来解决这个问题。但是，现在，它一直在DOCTYPE

的随机HTML注释标记中删除

<!--<!DOCTYPE HTML-->

使用BeautifulSoup解析HTML将替换现有的HTML标记

1 个答案: