为了对从Lucene得到的结果执行简单的聚类算法,我必须计算Lucene中两个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心。
我能想到的就是使用tf-idf加权构建我自己的Vector Space模型,使用TermFreqVectors和Overall Term频率来填充它。
我的问题是:这不是一种有效的方法,有更好的方法吗?
这感觉有点不清楚,所以对我如何改进我的问题的任何建议也表示赞赏。
答案 0 :(得分:1)
答案 1 :(得分:0)
简短的回答是:否。
我花了很多时间(方式太多)调查这个,据我所知,你可以制作自己的矢量空间模型并从中工作,或使用Mahout生成Mahout矢量,你可以在哪些文件之间进行比较。我要继续做自己的,所以我正在回答这个问题!
答案 2 :(得分:0)
为了获得一个文档与另一个文档的相似性,为什么不用一个文档的内容进行一次查询并对索引运行查询? 这样,你将获得分数(余弦相似度值)