我正在使用BeautifulSoup进行python challenge level-9。 url =“http://www.pythonchallenge.com/pc/return/good.html”。 bs4。版本 =='4.3.2'。 页面源中有两条注释。汤的产量应如下。 但是,当应用BeautifulSoup时,缺少第二个注释。
看起来有点奇怪。任何提示?谢谢!
import requests
from bs4 import BeautifulSoup
url = "http://www.pythonchallenge.com/pc/return/good.html"
page = requests.get(url, auth = ("huge", "file")).text
print page
soup = BeautifulSoup(page)
print soup
答案 0 :(得分:0)
Beautiful Soup是html解析器的包装器。默认解析器非常严格,当它遇到格式错误的html时,会默默地删除它遇到问题的元素。
您应该安装包'html5lib'并将其用作解析器,如下所示:
soup = BeautifulSoup(page, 'html5lib')