访问gensim中的tfidf值

时间:2016-11-15 09:42:03

标签: python tf-idf gensim corpus

我想为每个文档找到具有最大TFIDF值的N个单词

我使用gensim和语料库来计算tfidf值:

tfidf = models.TfidfModel(mmcorpus)
corpus_tfidf = tfidf[mmcorpus]

然后,我想在语料库的每个文档中获得给定单词的tf-idf 通过查看我的corpus_tfidf对象,我看到一个语料库部分,其索引数组大小为417(这是我的语料库的大小),但是我找不到文档来帮助我获取文档中单词的TFIDF语料库 注意:问题的答案"使用Gensim获得TF-IDF单词分数"并没有真正解决问题;它为每个单词提供了唯一的值

=== EDIT ===

从其他示例代码中,我成功尝试了以下代码(当然不是Pythonic,而不是它):

for doc in corpus_tfidf: 
    d = {} 
    for id, value in doc: 
        if value>0: 
            d[corpus.dictionary.get(id)] = value

但我无法解释或记录为什么我可以为corpus_tfidf中的doc做些什么并获得有用的东西,corpus_tfidf没有明确的可迭代性,因为它是什么定义从每个获得的对象迭代? 然后,后续问题是:如何找到与doc变量关联的源?我将创建一个关于该

的单独问题

0 个答案:

没有答案