我有这些输入文件
id, feature1, feature2, ...
0, 0, 1, 1, 0, 0, 0, ...
1, 0, 0, 1, 0, 1, 0, ...
2, 1, 0, 0, 0, 0, 0, ...
3, 0, 0, 0, 0, 1, 0, ...
我希望通过hadoop或mahout使用mapreduce作业来计算距离矩阵。 但是mahout没有计算距离矩阵的方法。 我该怎么办?
感谢您的帮助。
答案 0 :(得分:1)
您可以使用Mahout自行计算每条记录之间的距离。 使用DistanceMeasure class的距离方法,但您必须先将输入文件转换为SequenceFile。