Lucene的。如何构建term-doc矩阵

时间:2011-01-21 07:24:08

标签: lucene matrix tf-idf


我需要构建该矩阵,但我找不到计算每个单元格的标准化tf-idf的方法。 我将执行的归一化是余弦规范化,即每1 / sqrt(在列中的sumOfSquaredtf-idf)中除以tf-idf(使用DefaultSimilarity计算)。

有没有人知道这样做的方法?
提前谢谢你 安东尼奥

1 个答案:

答案 0 :(得分:1)

Sujit Pal's blog中描述了一种不使用Lucene的方法。或者,您可以构建一个Lucene索引,每个字段包含术语向量,迭代术语以获取idf,然后迭代术语的文档以获得tf。