使用mahout k中的向量转储命令获取空簇结果意味着算法

时间:2013-08-06 10:28:10

标签: linux mahout k-means

我已经安装并启动了hadoop并运行以下命令

mahout seqdirectory -c UTF-8 -i Input_files -o seqfiles

mahout seq2sparse -i seqfiles/ -o vectorfiles/ -ow

mahout kmeans -i vectorfiles/tf-vectors/ -c initial-clusters -o kmeans-clusters -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -cd 1.0 -k 20 -x 20 -cl

mahout clusterdump -dt sequencefile -d vectorfiles/dictionary.file-0 -i kmeans-clusters/clusters-1-final -o result.txt -b 10 -n 10

当我打开我的result.txt时,它正在给我

VL-1{n=2 c= all:1.00
     Top Terms:

下面是我的文本示例文本文件

John is working in London

请建议我如何获取示例文本文件的群集

1 个答案:

答案 0 :(得分:0)

只有一行是不够的。我做了一些黑客

  • 只需在文件夹Input_files中创建一个虚拟文件,其中包含虚拟文字 它。

它应该运行。 如果你得到更好的解决方案,请告诉我