编写程序来刮取论坛

时间:2010-06-05 13:28:05

标签: php python information-retrieval scrapy web-scraping

我需要编写一个程序来搜索论坛。

我应该使用Scrapy框架在Python中编写程序,还是应该使用Php cURL? 还有一个等同于Scrapy的Php吗?

由于

2 个答案:

答案 0 :(得分:4)

由于优秀的libxml2绑定,我会选择Python,特别是像lxml.htmlpyQuery这样的东西。 Scrapy有自己的libxml2绑定,我没有看过它们来测试它们,虽然略读Scrapy文档并没有给我留下太深刻的印象(我已经做了大量的使用这些解析器和手动编码的抓取)。通过这些中的任何一个,您可以获得真正优秀的HTML解析器,通过XPath查询,以及使用lxml.html和pyquery(也基于lxml构建),您将获得CSS选择器。

如果你正在抓一个论坛的小工作,我会跳过一个抓取框架,只需手动完成 - 它很容易,并行化并不是真的需要。

答案 1 :(得分:3)

我不会将PHP用于我正在编写的新应用程序。我出于各种原因不喜欢这种语言。

此外,它的优势在于作为服务器端脚本语言,可以通过Web提供动态页面。不是通用编程语言。这是另一个负面因素。我坚持使用Python。

至于使用哪个框架,周围有很多。 Harvestman,Scrapy等。还有基于80legs云的爬虫,而不是你可以使用的。

更新:人们一直在低估这个答案可能是因为我说我不喜欢PHP。以下列出了原因。虽然不完全准确,但却是一个不错的总结http://wiki.python.org/moin/PythonVsPhp