我想为每个文档找到具有最大TFIDF值的N个单词
我使用gensim和语料库来计算tfidf值:
tfidf = models.TfidfModel(mmcorpus)
corpus_tfidf = tfidf[mmcorpus]
然后,我想在语料库的每个文档中获得给定单词的tf-idf 通过查看我的corpus_tfidf对象,我看到一个语料库部分,其索引数组大小为417(这是我的语料库的大小),但是我找不到文档来帮助我获取文档中单词的TFIDF语料库 注意:问题的答案"使用Gensim获得TF-IDF单词分数"并没有真正解决问题;它为每个单词提供了唯一的值
=== EDIT ===
从其他示例代码中,我成功尝试了以下代码(当然不是Pythonic,而不是它):
for doc in corpus_tfidf:
d = {}
for id, value in doc:
if value>0:
d[corpus.dictionary.get(id)] = value
但我无法解释或记录为什么我可以为corpus_tfidf中的doc做些什么并获得有用的东西,corpus_tfidf没有明确的可迭代性,因为它是什么定义从每个获得的对象迭代? 然后,后续问题是:如何找到与doc变量关联的源?我将创建一个关于该
的单独问题