应用错误收集

python beautifulsoup：lxml html.parser

时间：2016-06-20 23:34:46

标签： python beautifulsoup lxml html-parser

我必须使用beautifulsoup，但我不知道我必须采取哪种解析器。我在lxml和html.parser之间犹豫不决，或者两者兼而有之。如何知道网页是否符合lxml标准？如何知道网页是否符合HTML解析器？非常感谢

1 个答案:

答案 0 :(得分：4)

没有银弹。 Different HTML parsers behave differently您应该选择适合您特定网页的那个。在这种情况下工作基本上意味着，您可以获得所需的数据。

lxml解析器通常更快，html5lib是最宽松的解析器 - 如果你有一个破解或非格式良好的HTML要解析，这种差异是相关的。如果这是一个问题，html.parser是内置的，可以帮助避免额外的依赖。这是一个突出差异的related table。