Question

我想为每个文档找到具有最大TFIDF值的N个单词

我使用gensim和语料库来计算tfidf值：

tfidf = models.TfidfModel(mmcorpus)
corpus_tfidf = tfidf[mmcorpus]

然后，我想在语料库的每个文档中获得给定单词的tf-idf 通过查看我的corpus_tfidf对象，我看到一个语料库部分，其索引数组大小为417（这是我的语料库的大小），但是我找不到文档来帮助我获取文档中单词的TFIDF语料库注意：问题的答案＆＃34;使用Gensim获得TF-IDF单词分数＆＃34;并没有真正解决问题;它为每个单词提供了唯一的值

=== EDIT ===

从其他示例代码中，我成功尝试了以下代码（当然不是Pythonic，而不是它）：

for doc in corpus_tfidf: 
    d = {} 
    for id, value in doc: 
        if value>0: 
            d[corpus.dictionary.get(id)] = value

但我无法解释或记录为什么我可以为corpus_tfidf中的doc做些什么并获得有用的东西，corpus_tfidf没有明确的可迭代性，因为它是什么定义从每个获得的对象迭代？然后，后续问题是：如何找到与doc变量关联的源？我将创建一个关于该

的单独问题

访问gensim中的tfidf值

0 个答案: