GAE的HTML解析器

时间:2010-01-29 11:29:20

标签: python google-app-engine html-parsing lxml

通常我会使用lxml来满足我的HTML解析需求,但这在Google App Engine上不可用。显而易见的替代方案是BeautifulSoup,但我觉得它在格式错误的HTML上太容易窒息了。目前我正在测试libxml2dom,并且已经取得了更好的效果。

您找到哪种纯Python HTML解析器效果最佳?我的首要任务是能够在速度上处理糟糕的HTML。

2 个答案:

答案 0 :(得分:5)

来自BeautifulSoup documentation

  

版本3.1.0的Beautiful Soup在真实HTML上的表现比3.0.8版本差得多

因此,它可能会帮助您使用此早期版本。这正是作者自己推荐的内容。

  

你可以假装Beautiful Soup 3.1.0版本从未发布过。版本3.0.8在Python 2.3到2.6上仍然可以正常工作。

答案 1 :(得分:5)