如何在mahout中获取集群的主题和文件?

时间:2014-10-16 13:46:32

标签: hadoop machine-learning hdfs data-mining mahout

我是mahout的新手。我想知道如何获取该群集的特定群集和文件名的主题​​。即这些文件聚集到此群集中,并具有这些主题。我读到有一个实用程序ClusterDumper将执行此任务。但我不知道如何。任何人都可以举一个例子来实现这个任务吗?

1 个答案:

答案 0 :(得分:0)

群集!=主题建模。

假设您正在谈论k-means,群集将为您提供平均词频率向量。将此转化为最终用户的有意义的主题是一项非常不同且更具挑战性的任务。 不要假设Mahout会给你一个漂亮的结果,比如" American Football" 。它不可能。没有人可以无人监管地做到这一点。