Nutch和爬行数百万个网站

时间:2015-07-08 21:20:22

标签: nutch

我们可以使用nutch 1.10来抓取数百个轮次的数百万个网站吗?

我不太了解启动nutch 1.10时创建的数据库。这足以从网站抓取重要数据吗?

我有一个文件列表,其中包含2千兆字节的网址列表。

1 个答案:

答案 0 :(得分:0)

是的,你可以。这基本上是荷兰人的目标。但是,抓取数百万个网站需要时间和空间,为此,您需要正确设置环境。

在nutch 1.X"抓取数据库",例如访问过的网址,网址边界(访问的下一个网址)等等。被持久化到hadoop文件系统。这是您首次注入网址列表的地方。

此外,为了查看索引数据,您可以使用solr(或elasticsearch)。

我建议首先使用简短网址列表浏览nutch 1.x tutorial,然后了解如何使用nutch和插件。

之后,使用hadoop site中的教程设置一个hadoop群集,并抓取!