我正在使用Gensim TfidfModel模型。这是我的代码:
dictionary = corpora.Dictionary(line.lower().split()) for line in open('aaa.txt'))
class MyCorpus(object):
def __iter__(self):
for line in open('aaa.txt'):
yield dictionary.doc2bow(line.lower().split())
corpus = MyCorpus()
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
现在我想提取每个单词的tf-idf值,我知道它们在corpus_tfidf变量中,我尝试了一些像下面这样的代码来查看所有单词tf-idf但是我有一个像' banana& #39;我想找到它的tf-idf值。有权访问字典中的每个单词,如dictionary.token2id [' banana'],但我怎样才能得到每个单词的tf-idf?
{dictionary.get(id): value for doc in corpus_tfidf for id, value in doc}
我的语料库有6501598个文档,585499个功能,64106768个非零条目,在最短时间内获取每个单词的值非常重要。