xml.minidom可以解析破碎的XML

时间:2017-12-13 20:21:56

标签: python html-parsing

注意: 我不能使用第三方模块,所以bs4和lxml不是一个选项。

我需要解析HTML Python 3 std lib。我认为xml.minidom是可行的方法,但它似乎无法解析无效的XML / HTML而不会抛出语法错误等异常。

我错过了xml模块中可以做我正在寻找的东西吗?
我在std lib中遗漏了什么吗?

2 个答案:

答案 0 :(得分:1)

假设无法使用第三方模块是合理的,那么html.parser有更好的机会,这可以让您对解析过程进行更低级别的控制。

xml.dom.minidom,我担心,通常情况下,无法解析损坏的文档。

答案 1 :(得分:-2)

如果你需要处理破碎的html / xml,我建议你去美丽的汤4