应用错误收集

有一个名为BeautifulSoup的图书馆，我认为这就是你要找的东西。当您尝试解析无效的XML时，普通的XML解析器将无法正常工作。 BeautifulSoup更容错，它仍然可以从无效的XML中提取信息。

Beautiful Soup是一个Python HTML / XML   解析器专为快速周转而设计   屏幕抓取等项目。三   功能强大：


如果给你不好的标记，美丽的汤不会窒息。它会产生一个   解析树大致如同   你的原始文件很有意义。   这通常足以收集   你需要和逃跑的数据。

美丽的汤提供了一些简单的方法和Pythonic习语   导航，搜索和修改   解析树：解剖a的工具包   记录并提取您需要的内容。   您不必创建自定义   每个应用程序的解析器。

Beautiful Soup会自动将传入的文档转换为Unicode   和传出的文件到UTF-8。您   不必考虑编码，   除非文件没有指明   编码和美丽的汤不能   自动检测一个。然后你必须   指定原始编码。

美丽的汤解析你的任何事情   给它，树遍历   东西给你。你可以告诉它“找到   所有链接“，或”查找所有链接   类externalLink“，或”查找全部   网址与“foo.com”匹配的链接，   或者“查找已经获得的表格标题   粗体文字，然后给我那个文字。“

应该注意的是，虽然HTML看起来像XML，但它不是XML。 XHTML是HTML的XML形式。

例如，请参阅extracting-text-from-html-file-using-python，了解有关在Python中解析HTML的方法的建议。

忽略Python中的XML错误

3 个答案: