用于HTML解析的最佳Python模块

时间:2011-10-04 23:06:11

标签: python html html-parsing

我有一个网站更新程序(人们可以更新内容(文本)而不是网站的外观),其中包含HTML,javascript作为前端语言& python作为后端/服务器端。

我发现从前端更新HTML非常困难,因为当我通过 ele.innerHTML $(ele).html()获取更新的HTML时根据浏览器(DAMN IE)提供改变的HTML。

所以我决定从后端更新我的HTML,即在Python中

您认为解析HTML&的最佳python模块是什么?抓住信息?

我的要求是:
- 该模块至少在Python 2.5或更低版本中(因为我的webhost) - 我将解析HTML&查找“可更新”类的所有HTML元素
- 对于“可更新”类的每个元素:提取innerText(不仅仅是html文本/内容)

您认为哪个python模块最适合这个?
- HTMLParser.py
- htmllib.py
- 知道任何其他python 2.5兼容模块吗?

2 个答案:

答案 0 :(得分:8)

对于解析HTML,我建议你看一下Beautiful Soup。它非常强大,也可以处理一些混乱的标记。

http://www.crummy.com/software/BeautifulSoup/

检查一下,看看它是否有助于你!希望如此。

答案 1 :(得分:5)

我一直在使用lxml(http://lxml.de/lxmlhtml.html)。它对于正常大小的html文档来说相对较快,并且支持使用BeautifulSoup。据我了解,不再支持BeautifulSoup所以对于我使用lxml的所有新项目。