使用带mahout的kmeans时忽略一列

时间:2016-03-09 10:31:06

标签: java mahout k-means

您好我有这种形式的一组数据:

12347,23.75580119032886
12348,57.97548386358446
12349,24.076027347616954
12350,19.670588100657742
12352,16.267473592256245

其中第一列是用户的ID,第二列是他购买的值。 我使用KMeans算法和mahout将数据集分成3个集群。我的问题是正在使用Id列,因此输出错误。 有没有办法忽略第一列并仅在第二列上进行聚类?谢谢。

1 个答案:

答案 0 :(得分:0)

使用map-reduce作业来适当地映射数据。