应用错误收集

时间：2010-08-10 08:24:02

标签： java lucene cluster-analysis similarity tf-idf

为了对从Lucene得到的结果执行简单的聚类算法，我必须计算Lucene中两个文档之间的余弦相似度，我还需要能够制作一个质心文档来表示每个聚类的质心。

我能想到的就是使用tf-idf加权构建我自己的Vector Space模型，使用TermFreqVectors和Overall Term频率来填充它。

我的问题是：这不是一种有效的方法，有更好的方法吗？

这感觉有点不清楚，所以对我如何改进我的问题的任何建议也表示赞赏。

答案 0 :(得分：1)

答案 1 :(得分：0)

简短的回答是：否。

我花了很多时间（方式太多）调查这个，据我所知，你可以制作自己的矢量空间模型并从中工作，或使用Mahout生成Mahout矢量，你可以在哪些文件之间进行比较。我要继续做自己的，所以我正在回答这个问题！

答案 2 :(得分：0)

为了获得一个文档与另一个文档的相似性，为什么不用一个文档的内容进行一次查询并对索引运行查询？这样，你将获得分数（余弦相似度值）