我有一个网站更新程序(人们可以更新内容(文本)而不是网站的外观),其中包含HTML,javascript作为前端语言& python作为后端/服务器端。
我发现从前端更新HTML非常困难,因为当我通过 ele.innerHTML 或 $(ele).html()获取更新的HTML时根据浏览器(DAMN IE)提供改变的HTML。
所以我决定从后端更新我的HTML,即在Python中
您认为解析HTML&的最佳python模块是什么?抓住信息?
我的要求是:
- 该模块至少在Python 2.5或更低版本中(因为我的webhost)
- 我将解析HTML&查找“可更新”类的所有HTML元素
- 对于“可更新”类的每个元素:提取innerText(不仅仅是html文本/内容)
您认为哪个python模块最适合这个?
- HTMLParser.py
- htmllib.py
- 知道任何其他python 2.5兼容模块吗?
答案 0 :(得分:8)
对于解析HTML,我建议你看一下Beautiful Soup。它非常强大,也可以处理一些混乱的标记。
http://www.crummy.com/software/BeautifulSoup/
检查一下,看看它是否有助于你!希望如此。
答案 1 :(得分:5)
我一直在使用lxml(http://lxml.de/lxmlhtml.html)。它对于正常大小的html文档来说相对较快,并且支持使用BeautifulSoup。据我了解,不再支持BeautifulSoup所以对于我使用lxml的所有新项目。