我正在解析部分没有平衡html标签的html文件。
假设此部分html文件中缺少第一行。 Beautiful Soup是否仍然可以解析其余的文件,我仍然可以提取不同标签的内部信息?
非常感谢您的帮助。
int
答案 0 :(得分:0)
使用任何高级解析器(html5lib
更强大,但速度更慢)。结果会有所不同:
soup = BeautifulSoup(open('foo.html'), 'lxml')
#<html><body><p>Example Domain <!-- <====missing tag in this line -->
#<meta charset="utf-8"/>
soup = BeautifulSoup(open('foo.html'), 'html5lib')
#<html><head></head><body>Example Domain <!-- <====missing tag in this line -->
#
#<meta charset="utf-8"/>