如何以高效的方式使用python解析HTML或XHTML或XML?

时间:2012-05-15 06:17:55

标签: python html xml xhtml

我的python env是2.7

我知道这是一个老问题,但在我搜索和阅读其他人的问题和答案时,我已经失去了理智。其中一些确实已经过时了。像下面的代码:

import lxml #wrong
import xml #correct

所以,既然我是python的新手,并且在伟大的python历史中什么都不知道,我想让事情变得更加清晰。比如,现在python中所谓的标准xml-parser模块是什么?当我需要使用xpath语法解析一些HTML时,我该怎么办?如果我有一个格式错误的HTML源代码,如何通过不使用BeautifulSoup或其他类似的方法来处理它。如果你能向我介绍一些事情,我将不胜感激。

好的,总而言之,我只有一个问题。如何通过使用python2.7的标准python模块解析格式错误的HTML代码?

1 个答案:

答案 0 :(得分:2)

如果您需要坚持使用标准库,请阅读python library documentation

如果你不这样做,请务必查看lxml,它可以提供更多功能。