Python 3.2 Beautiful Soup替代品

时间:2011-11-07 23:42:26

标签: python html web-crawler

我需要制作一个网络抓取工具来从网页中提取信息。我做了一个研究,发现Beautiful Soup非常好,因为我可以解析所有文档并创建dom对象并迭代,提取属性等(对于JQuery来说是简单的)。

但是我使用的是Python 3.2并且没有稳定的版本(我认为根本没有,只有3.1我在他们的主页上看到过)。

所以我需要一些好的选择。

3 个答案:

答案 0 :(得分:3)

在我看来,就像一年前发布的3.2.0美味汤一样。还有HTMLParser http://docs.python.org/library/htmlparser.html

答案 1 :(得分:2)

我认为最新版本是4.1.1,您可以在此处阅读BS4 Documentation

我已经在我的网站上使用了BS4和PHP这一目的已经有一段时间了,效果很好。由于PHP / Python不兼容问题,我不得不切换回BSv3,但这与BS4脚本本身的工作原理是分开的。

最初我使用内置的HTML Parsing引擎,但发现这很慢。在我的Web服务器上安装LMXL引擎后,速度大大提高!实际解析没有明显的改进,但速度急剧增加。

我试一试 - 我推荐它,在尝试美味汤之前我尝试了很多不同的选择。

祝你好运!

答案 2 :(得分:0)

来自lxml主页:

  

最新版本适用于2.4到3.2的所有CPython版本。