我正在学习mapreduce。我想实现一个天真的最近邻搜索 - 复杂度O(n ^ 2)。为此,我希望使用嵌套循环来迭代输入项。内循环比较两个项目并写出它们之间的距离。
我认为我需要做的是将输入拆分中的所有项目传递给映射器。我不知道该怎么做。如果我使用TextInputFormat,那么上下文的getCurrentValue()方法会返回什么?所有输入文件中的所有行还是别的?
NLineFormat怎么样?分割大小是否设置为N?
欢迎提供建议。我还没准备好深入研究这个问题的学术论文。
...
感谢您的评论。以下是我的更新: