评估文本/文档聚类算法的性能

时间:2013-09-18 03:18:09

标签: performance cluster-computing analysis metrics evaluation

我对集群相当新,并且我知道有各种各样的API可以提供聚类算法和评估。

我的目标是集群文档(文件内容),然后为生成的集群生成主题。

我目前已经为使用LDA的群集实现了Apache Mahout,并使用Mallet来生成群集的主题。

我现在需要做的是我必须实现其他几种聚类算法,然后将它们与LDA进行比较,以评估每种算法的性能,以证明LDA是我工作的合适算法。

我已经用Google搜索并了解评估聚类算法涉及内部或外部评估,并根据需要使用不同的标准。但是,不同的标准/评估指标将用于不同的算法。

在我的情况下,由于我使用不同的算法进行聚类,是否有任何合适的框架可供我使用,以便它可以帮助我评估我的聚类结果的性能?或者这个解决方案有什么替代方案吗?

我必须使用JAVA语言

来解决这个问题

0 个答案:

没有答案