您好我有这种形式的一组数据:
12347,23.75580119032886
12348,57.97548386358446
12349,24.076027347616954
12350,19.670588100657742
12352,16.267473592256245
其中第一列是用户的ID,第二列是他购买的值。 我使用KMeans算法和mahout将数据集分成3个集群。我的问题是正在使用Id列,因此输出错误。 有没有办法忽略第一列并仅在第二列上进行聚类?谢谢。
答案 0 :(得分:0)
使用map-reduce作业来适当地映射数据。