beautifulsoup4
恰好截断了无效(我猜)html。我想强迫它不要这样做。我假设没有正规的'方式,但也许你在某种程度上已经完成了?
答案 0 :(得分:1)
如果HTML被破坏,则无法始终重建可行的元素树。但是,您可以尝试使用不同的后端解析器。并非所有解析器都可以对待损坏的HTML。
html5lib
解析器特别擅长处理损坏的HTML,处理此类输入与大多数浏览器一样:
soup = BeautifulSoup(htmlcontent, 'html5')
您也可以在这里试试lxml
。这两个库都是单独的安装。