每个Mahout群集中的向量

时间:2013-04-22 01:20:10

标签: apache hadoop cluster-analysis mahout

我是Apache Mahout的新手。我试图了解哪些命名向量属于哪个群集。互联网上的大量资源都是关于文本文档的,并使用命令clusterdump。但是,我的数据集非常庞大,运行该命令总是会导致Java Out of Memory异常。此外,我不认为使用clusterdump会回答我的问题。

我想知道是否有可能只使用目录clusteredPointsclusters-[0-9]+以及clusters-*-final

来了解哪些命名向量属于哪些群集

如果它有帮助,到目前为止,我已经根据他们的歌曲收听习惯形成了用户群。为此,我最初使用NamedVectors创建了一个序列文件,其中NamedVector的名称是userId,Vector本身是一个双数组,包含用户收听的歌曲的标签权重(下面是一个例子)。

    AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
    ...
    ...
    ...

然后我成功地运行了k-means。我在目录clusteredPoints(大约88个文件,其名称为part-m-00088)和我认为包含质心的目录簇中有输出。

感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

我认为你需要在clusterdump中做一些研究,试试mahout clusterdump --help 试试这个

mahout clusterdump -i clusters-*-final/part-r-00000 -o output -p clusteredPoints/part-m-00000

并尝试此link以获得进一步说明。

你也可以尝试添加-of选项-of, 你会看到这样的显示:

  • id_cluster1,VEC1,vec2..vecl
  • id_cluster2,VEC1,vec2..vecl
  • ...