Question

我正在使用Gensim TfidfModel模型。这是我的代码：

dictionary = corpora.Dictionary(line.lower().split()) for line in open('aaa.txt'))

class MyCorpus(object):
    def __iter__(self):
        for line in open('aaa.txt'):
            yield dictionary.doc2bow(line.lower().split())

corpus = MyCorpus()

tfidf = models.TfidfModel(corpus)

corpus_tfidf = tfidf[corpus]

现在我想提取每个单词的tf-idf值，我知道它们在corpus_tfidf变量中，我尝试了一些像下面这样的代码来查看所有单词tf-idf但是我有一个像＆＃39; banana＆＃39;我想找到它的tf-idf值。有权访问字典中的每个单词，如dictionary.token2id [＆＃39; banana＆＃39;]，但我怎样才能得到每个单词的tf-idf？

{dictionary.get(id): value for doc in corpus_tfidf for id, value in doc}

我的语料库有6501598个文档，585499个功能，64106768个非零条目，在最短时间内获取每个单词的值非常重要。

Gensim提取语料库中单词的TF-IDF值

0 个答案: