我会写一个程序来处理很多破解的HTML。现在我遇到一个导致错误的破坏的HTML:
comment may not contain '--' or end with '-'
我已经搜索了这个错误了一段时间,并找到了解决办法:用最后一个版本替换html5parser,但它不起作用,可能因为他们使用html5parser.fromstring,我使用了soupparser.fromstring。我必须使用soupparser,因为html5parser无法处理这样的破解HTML。
我尝试阅读源代码和文档,并发现soupparser使用lxml.html作为默认工厂。所以我想如果我可以使用html5parser作为工厂,我可以解决这个问题。我知道fromstring中有一个参数 makeelement ,但没有例子。
所以我想知道:
谢谢!
更新:
最后,我通过将lxml降级到版本0.4.4来解决这个问题:
pip install lxml=0.4.4
此版本没有此问题。