Gensim提取语料库中单词的TF-IDF值

时间:2016-11-17 16:02:22

标签: python text tf-idf gensim

我正在使用Gensim TfidfModel模型。这是我的代码:

dictionary = corpora.Dictionary(line.lower().split()) for line in open('aaa.txt'))

class MyCorpus(object):
    def __iter__(self):
        for line in open('aaa.txt'):
            yield dictionary.doc2bow(line.lower().split())

corpus = MyCorpus()

tfidf = models.TfidfModel(corpus)

corpus_tfidf = tfidf[corpus]

现在我想提取每个单词的tf-idf值,我知道它们在corpus_tfidf变量中,我尝试了一些像下面这样的代码来查看所有单词tf-idf但是我有一个像' banana& #39;我想找到它的tf-idf值。有权访问字典中的每个单词,如dictionary.token2id [' banana'],但我怎样才能得到每个单词的tf-idf?

{dictionary.get(id): value for doc in corpus_tfidf for id, value in doc}

我的语料库有6501598个文档,585499个功能,64106768个非零条目,在最短时间内获取每个单词的值非常重要。

0 个答案:

没有答案