我是LDA的新手,当我使用gensim CoherenceModel计算我的LDA模型的相干分数时,要花很长时间。但是,训练部分相对较快,并且在合理的时间内。我想知道这是否是因为我的数据大小(大约25万个长文本),是否有任何方法可以加快此过程?谢谢
这是我的代码,与本教程完全相同
from gensim.models import CoherenceModel
coherence_model_lda = CoherenceModel(model=lda_model_tfidf, texts=LDA_, dictionary=dictionary, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)
答案 0 :(得分:1)
'c_v'
相干度量是最慢的方法,但可获得最佳结果。您可以尝试'u_mass'
获得最快的性能。
请注意,您只需要'u_mass'
的模型,语料库和相关参数。
您可以在此处详细了解两种方法之间的区别:http://palmetto.aksw.org/palmetto-webapp/