简单的mapreduce成对比较

时间:2014-07-15 00:52:59

标签: hadoop mapreduce

我正在学习mapreduce。我想实现一个天真的最近邻搜索 - 复杂度O(n ^ 2)。为此,我希望使用嵌套循环来迭代输入项。内循环比较两个项目并写出它们之间的距离。

我认为我需要做的是将输入拆分中的所有项目传递给映射器。我不知道该怎么做。如果我使用TextInputFormat,那么上下文的getCurrentValue()方法会返回什么?所有输入文件中的所有行还是别的?

NLineFormat怎么样?分割大小是否设置为N?

欢迎提供建议。我还没准备好深入研究这个问题的学术论文。

...

感谢您的评论。以下是我的更新:

  • 每个输入项是名义值的特征向量。两个项目之间的距离只是具有不同值的相应字段的数量。
  • 输出将很简单:项目#1_ID,项目#2_ID,距离
  • 我只是测试500件物品的样品,以便快速运行。我不会在大型现实数据集上使用这种方法。那里有一个幻灯片,在mapreduce中有一个近似的最近邻居匹配。如果我进一步采用这个项目,我可能会采用这种方法。

0 个答案:

没有答案