关于如何在gensim中实现tf-idf模型的一点混淆

时间:2013-02-05 11:01:37

标签: python nlp tf-idf gensim

我正在研究tf-idf模型。我对这个模型的实现方式几乎没有什么困惑。我现在已经构建了模型,当我尝试打印模型时,它为同一个术语提供了不同的值。对于以下两个术语,给出了这些结果:

doc_bow = [(0, 1), (1, 1)]
val1= tf_idf_corpus[doc_bow] 

doc_bow = [(0,1)]
val2=tf_idf_corpus[doc_bow] 

结果如下:

val1= [(0, 0.56486634414605663), (1, 0.82518241210720711)]
val2=[(0, 1.0)]

我只是很想知道为什么第0项的tf-idf值在val1中为0.5648,在val2中为1.0。

1 个答案:

答案 0 :(得分:0)

文档可能有助于消除您的困惑:http://radimrehurek.com/gensim/models/tfidfmodel.html

  

我只是很想知道,为什么0的tf-idf值是0.5648 in   val2中的val1和1.0。

将输出向量归一化为单位(欧几里德)长度。您可以使用normalize构造函数参数将其关闭。