我需要构建该矩阵,但我找不到计算每个单元格的标准化tf-idf的方法。
我将执行的归一化是余弦规范化,即每1 / sqrt(在列中的sumOfSquaredtf-idf)中除以tf-idf(使用DefaultSimilarity计算)。
有没有人知道这样做的方法?
提前谢谢你
安东尼奥
答案 0 :(得分:1)
Sujit Pal's blog中描述了一种不使用Lucene的方法。或者,您可以构建一个Lucene索引,每个字段包含术语向量,迭代术语以获取idf,然后迭代术语的文档以获得tf。