我正在研究tf-idf模型。我对这个模型的实现方式几乎没有什么困惑。我现在已经构建了模型,当我尝试打印模型时,它为同一个术语提供了不同的值。对于以下两个术语,给出了这些结果:
doc_bow = [(0, 1), (1, 1)]
val1= tf_idf_corpus[doc_bow]
doc_bow = [(0,1)]
val2=tf_idf_corpus[doc_bow]
结果如下:
val1= [(0, 0.56486634414605663), (1, 0.82518241210720711)]
val2=[(0, 1.0)]
我只是很想知道为什么第0项的tf-idf值在val1中为0.5648,在val2中为1.0。
答案 0 :(得分:0)
文档可能有助于消除您的困惑:http://radimrehurek.com/gensim/models/tfidfmodel.html
我只是很想知道,为什么0的tf-idf值是0.5648 in val2中的val1和1.0。
将输出向量归一化为单位(欧几里德)长度。您可以使用normalize
构造函数参数将其关闭。