应用错误收集

GAE的HTML解析器

时间：2010-01-29 11:29:20

标签： python google-app-engine html-parsing lxml

通常我会使用lxml来满足我的HTML解析需求，但这在Google App Engine上不可用。显而易见的替代方案是BeautifulSoup，但我觉得它在格式错误的HTML上太容易窒息了。目前我正在测试libxml2dom，并且已经取得了更好的效果。

您找到哪种纯Python HTML解析器效果最佳？我的首要任务是能够在速度上处理糟糕的HTML。

2 个答案:

答案 0 :(得分：5)

来自BeautifulSoup documentation：

版本3.1.0的Beautiful Soup在真实HTML上的表现比3.0.8版本差得多

因此，它可能会帮助您使用此早期版本。这正是作者自己推荐的内容。

你可以假装Beautiful Soup 3.1.0版本从未发布过。版本3.0.8在Python 2.3到2.6上仍然可以正常工作。

答案 1 :(得分：5)

不再是问题 - 支持lxml： https://developers.google.com/appengine/docs/python/tools/libraries27