防止bs4截断html

时间:2013-11-26 22:27:44

标签: python beautifulsoup

在某些情况下,

beautifulsoup4恰好截断了无效(我猜)html。我想强迫它不要这样做。我假设没有正规的'方式,但也许你在某种程度上已经完成了?

1 个答案:

答案 0 :(得分:1)

如果HTML被破坏,则无法始终重建可行的元素树。但是,您可以尝试使用不同的后端解析器。并非所有解析器都可以对待损坏的HTML。

html5lib解析器特别擅长处理损坏的HTML,处理此类输入与大多数浏览器一样:

soup = BeautifulSoup(htmlcontent, 'html5')

您也可以在这里试试lxml。这两个库都是单独的安装。