Mahout K表示聚类输入文件格式

时间:2014-06-17 18:40:35

标签: hadoop format mahout k-means

我正在尝试使用Mahout来运行K Means群集算法。我不知道如何格式化输入文件。我在表中的基础数据是用户ID,后跟几百个值。我知道我需要提供输入作为向量,有人可以分享这种格式。

例如:

User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count
A     20              $30        Male   Owns a home       Y                  5
B     10             $400      Female    Rents            N                 20
....

它只是:

A:20,30,0,0,1,5

B:10,400,1,1,0,20

我正在编码:

  1. 男性为0,女性为1,
  2. 拥有一个家庭为0,租金为1
  3. Y为1,N为0

1 个答案:

答案 0 :(得分:0)

我是Mahout的新人,我遇到了同样的问题。我终于在mahout网站上找到了一个关于应用聚类(k-means也是我的目标)的例子,这也是我的(https://mahout.apache.org/users/clustering/clustering-of-synthetic-control-data.html)。 基本上,您的文件应采用此格式(我只是将0和1作为示例)。

1 0 1 0 0 1
0 1 1 1 1 1
0 1 1 0 1 0
...

您案例中的每条记录都应该是一个用户(在我的每条记录中都是一台机器的输出)。 要运行K-means,我使用网站上建议的命令,但结果是一组质心,如果我理解的话,不是一组聚类数据。

请记住,输入必须存储在HDFS文件系统中,而输出保存在本地文件系统中(只是为了避免像我一样努力寻找输出文件: - )

希望这可以帮到你。