计算Lucene文档与质心之间的相似性

时间:2010-08-10 08:24:02

标签: java lucene cluster-analysis similarity tf-idf

为了对从Lucene得到的结果执行简单的聚类算法,我必须计算Lucene中两个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心。

我能想到的就是使用tf-idf加权构建我自己的Vector Space模型,使用TermFreqVectors和Overall Term频率来填充它。

我的问题是:这不是一种有效的方法,有更好的方法吗?

这感觉有点不清楚,所以对我如何改进我的问题的任何建议也表示赞赏。

3 个答案:

答案 0 :(得分:1)

答案 1 :(得分:0)

简短的回答是:否。

我花了很多时间(方式太多)调查这个,据我所知,你可以制作自己的矢量空间模型并从中工作,或使用Mahout生成Mahout矢量,你可以在哪些文件之间进行比较。我要继续做自己的,所以我正在回答这个问题!

答案 2 :(得分:0)

为了获得一个文档与另一个文档的相似性,为什么不用一个文档的内容进行一次查询并对索引运行查询? 这样,你将获得分数(余弦相似度值)