Question

今天我刚刚开始编写一个脚本，使用gensim库在大型语料库（最少30M句子）上训练LDA模型。这是我正在使用的当前代码：

from gensim import corpora, models, similarities, matutils

def train_model(fname):
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    dictionary = corpora.Dictionary(line.lower().split() for line in open(fname))
    print "DOC2BOW"
    corpus = [dictionary.doc2bow(line.lower().split()) for line in open(fname)]

    print "running LDA"
    lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=100, update_every=1, chunksize=10000, asses=1)

在小型语料库上运行此脚本（2M句子）我意识到它需要大约7GB的RAM。当我尝试在较大的语料库上运行它时，由于内存问题而失败。问题显然是因为我使用以下命令加载语料库：

corpus = [dictionary.doc2bow(line.lower().split()) for line in open(fname)]

但是，我认为没有别的办法，因为我需要它来调用LdaModel（）方法：

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=100, update_every=1, chunksize=10000, asses=1)

我搜索了这个问题的解决方案，但我找不到任何有用的东西。我认为它应该是一个常见的问题，因为我们主要在非常大的语料库（通常是维基百科文档）上训练模型。所以，它应该已经是它的解决方案了。

关于这个问题及其解决方案的任何想法？

Answer 1

考虑将corpus包装为可迭代并传递而不是列表（生成器不起作用）。

来自the tutorial：

class MyCorpus(object):
    def __iter__(self):
       for line in open(fname):
            # assume there's one document per line, tokens separated by whitespace
            yield dictionary.doc2bow(line.lower().split())

corpus = MyCorpus()
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, 
                                      id2word=dictionary,
                                      num_topics=100,
                                      update_every=1,
                                      chunksize=10000,
                                      passes=1)

此外，Gensim有几种不同的语料库格式，可以在API reference中找到。您可以考虑使用TextCorpus，它应该很适合您的格式：

corpus = gensim.corpora.TextCorpus(fname)
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, 
                                      id2word=corpus.dictionary, # TextCorpus can build the dictionary for you
                                      num_topics=100,
                                      update_every=1,
                                      chunksize=10000,
                                      passes=1)

使用gensim库进行内存高效的LDA培训

1 个答案: