假设我有一个我想要运行Mahout群集作业的数据集。我希望每个数据点都有唯一的标识符,例如ID号。我不想将ID附加到向量,因为它将包含在聚类计算中。如何在没有算法的情况下在数据中包含标识符,包括计算中的ID号?有没有办法让输入成为一个键值对,其中键是ID,值是我想要运行算法的Vector?
答案 0 :(得分:0)
艾莉森在担心这件事之前,先看看输出。很多时候,您有一系列已分配的CLusterID,其中输入和输出文件中的行顺序是相同的。例如,输入文件第一行中的节点将位于输出文件的第一行。因此,您可以将ID保存在单独的文件中,它们的向量位于输入文件中。然后,您可以组合单独的文件和输出文件,以查看为哪个节点分配了哪个集群。