使用BeautifulSoup解析HTML将替换现有的HTML标记

时间:2017-05-04 19:47:35

标签: python-2.7 beautifulsoup

我正在使用BeautifulSoup v4来解析出一串HTML,如下所示:

<!DOCTYPE HTML>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office">
<head></head>
<body><p>Hello, world</p></body>
</html>

以下是我解析它的方法:

soup = BeautifulSoup(html)

其中html是上面粘贴的HTML。无论出于何种原因,BS会使用标准标记替换<html>标记,而不使用额外的元信息。我可以告诉BS不要这样做吗?

1 个答案:

答案 0 :(得分:0)

我能够通过将html5lib作为HTML解析器传递给BS来解决这个问题。但是,现在,它一直在DOCTYPE

的随机HTML注释标记中删除
<!--<!DOCTYPE HTML-->