用于抓取和数据挖掘网站的最佳开源库或应用程序

时间:2009-04-17 07:26:04

标签: web-crawler data-mining extraction text-extraction

我想知道什么是最好的用于抓取和分析网站的eopen-source库。一个例子是爬虫物业代理商,在那里我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取属性广告。

4 个答案:

答案 0 :(得分:8)

我使用优秀的python包urllib2mechanizeBeautifulSoup进行了大量的搜索。

我还建议您查看lxmlScrapy,但我目前不使用它们(仍计划尝试scrapy)。

Perl语言也有很好的抓取功能。

答案 1 :(得分:1)

PHP / cURL是一个非常强大的组合,特别是如果你想直接在网页中使用结果......

答案 2 :(得分:1)

与莫罗佐夫先生一样,我也做了很多工作,主要是工作地点。我从来没有采取机械化,如果这有助于任何。 Beautifulsoup与urllib2结合使用已经足够。

我使用过lxml,这很棒。但是,如果您需要,我相信几个月前我尝试使用Google应用时可能无法使用它。

我要感谢Morozov先生提到Scrapy。没听说过。

答案 3 :(得分:0)

除了Scrapy,你还应该看看Parselets