如何将下面的文本转换为序列文件再次,将转换为mahout kmeans的向量?

时间:2012-08-10 03:12:15

标签: vector mahout k-means sequencefile

大家下午好,

我的数据格式如下:

ID:VALUE(用户分配的代码)

0001:" PC,THINKPAD,T500"

0002:"电话,手机,IPHONE,APPLE,IPHONE5"

......等等。

如何编写代码:

1)首先,将它们转换为密钥:值格式的序列文件。

2)然后,将上面的序列文件转换为将用于kmeans聚类的向量?

我正在检查SequenceFileFromdDirectory和SparseVectorFromSequenceFiles,但这些看起来有点复杂,现在有点难以阅读。

所以,我想知道这里是否有人可以给我一个关于如何进行上述两次转换的简单示例代码?

非常感谢!

1 个答案:

答案 0 :(得分:0)

这两个过程完全按照你想要的方式完成,现在只需要输出人类可读,而不是序列文件,你可以使用seqdumper功能。

如果您需要更清晰的照片,请查看here,非常好的介绍。