mapreduce中是否有索引器的Java实现?

时间:2012-05-09 12:30:39

标签: java mapreduce information-retrieval

我有一个URL列表,我想下载它们以便以webtrec格式创建索引。我找到了一个名为 MapReduce (Apache Hadoop)的有用框架,但我想知道java中是否有我想要做的实现。或者可能是它的一个很好的例子。

谢谢!

1 个答案:

答案 0 :(得分:1)

MapReduce模式是多步骤中可并行化,CPU绑定计算的模式。下载和抓取网页是一种I / O绑定操作。因此,您应区分两种操作。

因此,当性能非常重要时,您应首先使用类似队列和异步I / O的内容来下载网站。在第二步中,您可以使用MapReduce构建实际索引。

Hadoop是一种可能性,但如果你没有大规模定位,那么像Fork / Join和akka这样的框架也可能适用。