为什么使用gensim计算LDA的相干分数这么慢

时间:2019-06-22 03:33:15

标签: nlp gensim lda

我是LDA的新手,当我使用gensim CoherenceModel计算我的LDA模型的相干分数时,要花很长时间。但是,训练部分相对较快,并且在合理的时间内。我想知道这是否是因为我的数据大小(大约25万个长文本),是否有任何方法可以加快此过程?谢谢

这是我的代码,与本教程完全相同

from gensim.models import CoherenceModel
coherence_model_lda = CoherenceModel(model=lda_model_tfidf, texts=LDA_, dictionary=dictionary, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)

1 个答案:

答案 0 :(得分:1)

'c_v'相干度量是最慢的方法,但可获得最佳结果。您可以尝试'u_mass'获得最快的性能。

请注意,您只需要'u_mass'的模型,语料库和相关参数。

您可以在此处详细了解两种方法之间的区别:http://palmetto.aksw.org/palmetto-webapp/