web-crawler - 用于抓取和数据挖掘网站的最佳开源库或应用程序

时间：2009-04-17 07:26:04

标签： web-crawler data-mining extraction text-extraction

我想知道什么是最好的用于抓取和分析网站的eopen-source库。一个例子是爬虫物业代理商，在那里我想从多个站点获取信息并将它们聚合到我自己的站点中。为此，我需要抓取网站并提取属性广告。

答案 0 :(得分：8)

我使用优秀的python包urllib2，mechanize和BeautifulSoup进行了大量的搜索。

我还建议您查看lxml和Scrapy，但我目前不使用它们（仍计划尝试scrapy）。

Perl语言也有很好的抓取功能。

答案 1 :(得分：1)

PHP / cURL是一个非常强大的组合，特别是如果你想直接在网页中使用结果......

答案 2 :(得分：1)

与莫罗佐夫先生一样，我也做了很多工作，主要是工作地点。我从来没有采取机械化，如果这有助于任何。 Beautifulsoup与urllib2结合使用已经足够。

我使用过lxml，这很棒。但是，如果您需要，我相信几个月前我尝试使用Google应用时可能无法使用它。

我要感谢Morozov先生提到Scrapy。没听说过。

答案 3 :(得分：0)

除了Scrapy，你还应该看看Parselets