通常我会使用lxml来满足我的HTML解析需求,但这在Google App Engine上不可用。显而易见的替代方案是BeautifulSoup,但我觉得它在格式错误的HTML上太容易窒息了。目前我正在测试libxml2dom,并且已经取得了更好的效果。
您找到哪种纯Python HTML解析器效果最佳?我的首要任务是能够在速度上处理糟糕的HTML。
答案 0 :(得分:5)
来自BeautifulSoup documentation:
版本3.1.0的Beautiful Soup在真实HTML上的表现比3.0.8版本差得多
因此,它可能会帮助您使用此早期版本。这正是作者自己推荐的内容。
你可以假装Beautiful Soup 3.1.0版本从未发布过。版本3.0.8在Python 2.3到2.6上仍然可以正常工作。
答案 1 :(得分:5)