Question

我目前正在使用9600文档并应用gensim LDA。对于培训部分，这个过程似乎需要永远才能获得模型。我也尝试过使用多核功能，但似乎无法正常工作。我整整跑了差不多3天，但仍然无法获得lda模型。我检查了数据和代码的一些功能。我读了这个问题gensim LdaMulticore not multiprocessing?，但仍然没有得到解决方案。

corpora.MmCorpus.serialize('corpus_whole.mm', corpus)
corpus = gensim.corpora.MmCorpus('corpus_whole.mm')
dictionary = gensim.corpora.Dictionary.load('dictionary_whole.dict')

dictionary.num_pos
12796870

print(corpus)
MmCorpus(5275227 documents, 44 features, 11446976 non-zero entries)

# lda model training codes
lda = models.LdaModel(corpus, num_topics=45, id2word=dictionary,\
 update_every=5, chunksize=10000,  passes=100)

ldanulti = models.LdaMulticore(corpus, num_topics=45, id2word=dictionary,\
                            chunksize=10000, passes=100, workers=3)

这是我的配置检查BLAS，我不确定我安装了正确的。我在这里遇到的一件事是，我无法使用apt-get命令在我的mac上安装软件包。我已经安装了Xcode，但它仍然给我一个错误。

python -c 'import scipy; scipy.show_config()'
lapack_mkl_info:
libraries = ['mkl_intel_lp64', 'mkl_intel_thread', 'mkl_core', 'iomp5', 'pthread']
library_dirs = ['/Users/misun/anaconda/lib']
include_dirs = ['/Users/misun/anaconda/include']
define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)]
lapack_opt_info:
libraries = ['mkl_intel_lp64', 'mkl_intel_thread', 'mkl_core', 'iomp5', 'pthread']
library_dirs = ['/Users/misun/anaconda/lib']
include_dirs = ['/Users/misun/anaconda/include']
define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)]
blas_opt_info:
libraries = ['mkl_intel_lp64', 'mkl_intel_thread', 'mkl_core', 'iomp5', 'pthread']
library_dirs = ['/Users/misun/anaconda/lib']
include_dirs = ['/Users/misun/anaconda/include']
define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)]
blas_mkl_info:
libraries = ['mkl_intel_lp64', 'mkl_intel_thread', 'mkl_core', 'iomp5', 'pthread']
library_dirs = ['/Users/misun/anaconda/lib']
include_dirs = ['/Users/misun/anaconda/include']
define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)]

我对如何在我的字典和语料库中使用python中的shardedcorpus知之甚少，所以任何帮助都将受到赞赏！我没有睡了3天才发现这个问题！谢谢！

Answer 1

我无法在我的机器上重现您的问题，但对我而言，您的问题似乎不是多处理，而是您的参数passes，这对我来说似乎太高了。尝试类似1或2的东西，这应该是一个很好的参数。如果您的主题不能很好地收敛，您仍然可以增加它。

lda = models.LdaModel(corpus, num_topics=45, id2word=dictionary, update_every=5, chunksize=10000,  passes=1)

这应该在一天内完成，可能只需几个小时（取决于您的机器）。

非常慢的LDA训练模型与大型语料库python gensim

1 个答案: