python - Python 3.2 Beautiful Soup替代品

时间：2011-11-07 23:42:26

标签： python html web-crawler

我需要制作一个网络抓取工具来从网页中提取信息。我做了一个研究，发现Beautiful Soup非常好，因为我可以解析所有文档并创建dom对象并迭代，提取属性等（对于JQuery来说是简单的）。

但是我使用的是Python 3.2并且没有稳定的版本（我认为根本没有，只有3.1我在他们的主页上看到过）。

所以我需要一些好的选择。

答案 0 :(得分：3)

在我看来，就像一年前发布的3.2.0美味汤一样。还有HTMLParser http://docs.python.org/library/htmlparser.html

答案 1 :(得分：2)

我认为最新版本是4.1.1，您可以在此处阅读BS4 Documentation

我已经在我的网站上使用了BS4和PHP这一目的已经有一段时间了，效果很好。由于PHP / Python不兼容问题，我不得不切换回BSv3，但这与BS4脚本本身的工作原理是分开的。

最初我使用内置的HTML Parsing引擎，但发现这很慢。在我的Web服务器上安装LMXL引擎后，速度大大提高！实际解析没有明显的改进，但速度急剧增加。

我试一试 - 我推荐它，在尝试美味汤之前我尝试了很多不同的选择。

祝你好运！

答案 2 :(得分：0)

来自lxml主页：

最新版本适用于2.4到3.2的所有CPython版本。