应用错误收集

时间：2011-10-04 23:06:11

标签： python html html-parsing

我有一个网站更新程序（人们可以更新内容（文本）而不是网站的外观），其中包含HTML，javascript作为前端语言＆amp; python作为后端/服务器端。

我发现从前端更新HTML非常困难，因为当我通过 ele.innerHTML 或 $（ele）.html（）获取更新的HTML时根据浏览器（DAMN IE）提供改变的HTML。

所以我决定从后端更新我的HTML，即在Python中

您认为解析HTML＆amp;的最佳python模块是什么？抓住信息？

我的要求是：
- 该模块至少在Python 2.5或更低版本中（因为我的webhost） - 我将解析HTML＆amp;查找“可更新”类的所有HTML元素
- 对于“可更新”类的每个元素：提取innerText（不仅仅是html文本/内容）

您认为哪个python模块最适合这个？
- HTMLParser.py
- htmllib.py
- 知道任何其他python 2.5兼容模块吗？

答案 0 :(得分：8)

对于解析HTML，我建议你看一下Beautiful Soup。它非常强大，也可以处理一些混乱的标记。

检查一下，看看它是否有助于你！希望如此。

答案 1 :(得分：5)

我一直在使用lxml（http://lxml.de/lxmlhtml.html）。它对于正常大小的html文档来说相对较快，并且支持使用BeautifulSoup。据我了解，不再支持BeautifulSoup所以对于我使用lxml的所有新项目。