我正在尝试使用Mahout来运行K Means群集算法。我不知道如何格式化输入文件。我在表中的基础数据是用户ID,后跟几百个值。我知道我需要提供输入作为向量,有人可以分享这种格式。
例如:
User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count
A 20 $30 Male Owns a home Y 5
B 10 $400 Female Rents N 20
....
它只是:
A:20,30,0,0,1,5
B:10,400,1,1,0,20
我正在编码:
答案 0 :(得分:0)
我是Mahout的新人,我遇到了同样的问题。我终于在mahout网站上找到了一个关于应用聚类(k-means也是我的目标)的例子,这也是我的(https://mahout.apache.org/users/clustering/clustering-of-synthetic-control-data.html)。 基本上,您的文件应采用此格式(我只是将0和1作为示例)。
1 0 1 0 0 1
0 1 1 1 1 1
0 1 1 0 1 0
...
您案例中的每条记录都应该是一个用户(在我的每条记录中都是一台机器的输出)。 要运行K-means,我使用网站上建议的命令,但结果是一组质心,如果我理解的话,不是一组聚类数据。
请记住,输入必须存储在HDFS文件系统中,而输出保存在本地文件系统中(只是为了避免像我一样努力寻找输出文件: - )
希望这可以帮到你。