Question

我是LDA的新手，当我使用gensim CoherenceModel计算我的LDA模型的相干分数时，要花很长时间。但是，训练部分相对较快，并且在合理的时间内。我想知道这是否是因为我的数据大小（大约25万个长文本），是否有任何方法可以加快此过程？谢谢

这是我的代码，与本教程完全相同

from gensim.models import CoherenceModel
coherence_model_lda = CoherenceModel(model=lda_model_tfidf, texts=LDA_, dictionary=dictionary, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)

Answer 1

'c_v'相干度量是最慢的方法，但可获得最佳结果。您可以尝试'u_mass'获得最快的性能。

请注意，您只需要'u_mass'的模型，语料库和相关参数。

您可以在此处详细了解两种方法之间的区别：http://palmetto.aksw.org/palmetto-webapp/

为什么使用gensim计算LDA的相干分数这么慢

1 个答案: