注意:
我不能使用第三方模块,所以bs4和lxml不是一个选项。
我需要解析HTML
Python 3 std lib。我认为xml.minidom是可行的方法,但它似乎无法解析无效的XML / HTML而不会抛出语法错误等异常。
我错过了xml模块中可以做我正在寻找的东西吗?
我在std lib中遗漏了什么吗?
答案 0 :(得分:1)
假设无法使用第三方模块是合理的,那么html.parser
有更好的机会,这可以让您对解析过程进行更低级别的控制。
xml.dom.minidom
,我担心,通常情况下,无法解析损坏的文档。
答案 1 :(得分:-2)
如果你需要处理破碎的html / xml,我建议你去美丽的汤4