我当前正在数据集上运行LDA。数据集大约包含60k个文档。这些文档大约与Wikipedia文章一样长。 我为10,20,30 ...,70个主题运行了LDA。对于80个或更多主题,所有系数都变为nan。我在两台不同的计算机上尝试了numpy和gensim版本的每种组合,但在两者上都得到了相同的结果。 我绝对不知道如何解决这个问题。请让我知道您需要什么信息。
由于您要求输入代码段,因此以下是lda的行:
lda = gensim.models.ldamulticore.LdaMulticore(corpus,
id2word=dictionary, num_topics=80, chunksize=1800, passes=20,
workers=1, eval_every=1, iterations=1000)
我改变了工人的数量。通常我使用3或4。