Question

我正在尝试使用Mahout来运行K Means群集算法。我不知道如何格式化输入文件。我在表中的基础数据是用户ID，后跟几百个值。我知道我需要提供输入作为向量，有人可以分享这种格式。

例如：

User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count
A     20              $30        Male   Owns a home       Y                  5
B     10             $400      Female    Rents            N                 20
....

它只是：

A：20,30,0,0,1,5

B：10,400,1,1,0,20

我正在编码：

男性为0，女性为1，
拥有一个家庭为0，租金为1
Y为1，N为0

Answer 1

我是Mahout的新人，我遇到了同样的问题。我终于在mahout网站上找到了一个关于应用聚类（k-means也是我的目标）的例子，这也是我的（https://mahout.apache.org/users/clustering/clustering-of-synthetic-control-data.html）。基本上，您的文件应采用此格式（我只是将0和1作为示例）。

1 0 1 0 0 1
0 1 1 1 1 1
0 1 1 0 1 0
...

您案例中的每条记录都应该是一个用户（在我的每条记录中都是一台机器的输出）。要运行K-means，我使用网站上建议的命令，但结果是一组质心，如果我理解的话，不是一组聚类数据。

请记住，输入必须存储在HDFS文件系统中，而输出保存在本地文件系统中（只是为了避免像我一样努力寻找输出文件： - ）

希望这可以帮到你。

Mahout K表示聚类输入文件格式

1 个答案: