bs4第二条评论<! - >缺失 - >

时间:2014-10-25 17:52:04

标签: python web-scraping beautifulsoup

我正在使用BeautifulSoup进行python challenge level-9。 url =“http://www.pythonchallenge.com/pc/return/good.html”。 bs4。版本 =='4.3.2'。 页面源中有两条注释。汤的产量应如下。 但是,当应用BeautifulSoup时,缺少第二个注释。

看起来有点奇怪。任何提示?谢谢!

import requests
from bs4 import BeautifulSoup

url = "http://www.pythonchallenge.com/pc/return/good.html"
page = requests.get(url, auth = ("huge", "file")).text
print page
soup = BeautifulSoup(page) 
print soup

1 个答案:

答案 0 :(得分:0)

Beautiful Soup是html解析器的包装器。默认解析器非常严格,当它遇到格式错误的html时,会默默地删除它遇到问题的元素。

您应该安装包'html5lib'并将其用作解析器,如下所示:

soup = BeautifulSoup(page, 'html5lib')