Question

我正在使用BeautifulSoup进行python challenge level-9。 url =“http://www.pythonchallenge.com/pc/return/good.html”。 bs4。版本 =='4.3.2'。页面源中有两条注释。汤的产量应如下。但是，当应用BeautifulSoup时，缺少第二个注释。

看起来有点奇怪。任何提示？谢谢！

import requests
from bs4 import BeautifulSoup

url = "http://www.pythonchallenge.com/pc/return/good.html"
page = requests.get(url, auth = ("huge", "file")).text
print page
soup = BeautifulSoup(page) 
print soup

Answer 1

Beautiful Soup是html解析器的包装器。默认解析器非常严格，当它遇到格式错误的html时，会默默地删除它遇到问题的元素。

您应该安装包'html5lib'并将其用作解析器，如下所示：

soup = BeautifulSoup(page, 'html5lib')

bs4第二条评论<！ - >缺失 - >

1 个答案: