Question

在某些情况下，

beautifulsoup4恰好截断了无效（我猜）html。我想强迫它不要这样做。我假设没有正规的＆＃39;方式，但也许你在某种程度上已经完成了？

Answer 1

如果HTML被破坏，则无法始终重建可行的元素树。但是，您可以尝试使用不同的后端解析器。并非所有解析器都可以对待损坏的HTML。

html5lib解析器特别擅长处理损坏的HTML，处理此类输入与大多数浏览器一样：

soup = BeautifulSoup(htmlcontent, 'html5')

您也可以在这里试试lxml。这两个库都是单独的安装。