使用LDA为大型语料库确定最佳主题数的快速方法

时间:2018-07-05 07:15:37

标签: python r lda topic-modeling

我的语料库由大约160,000个文档组成。我想使用R中的LDA(特别是 lda 包中的功能 lda.collapsed.gibbs.sampler )对它进行主题建模。

我想确定最佳主题数。似乎常见的过程是拥有一个主题编号的向量,例如,从1到100,然后运行模型100次,然后找到一个具有最大谐波均值或最小困惑度的模型。

但是,鉴于大量文档,最佳主题数可以轻松达到数百甚至数千个。我发现随着主题数量的增加,计算时间将显着增加。即使我使用并行计算,也要几天或几周的时间。

我想知道是否有更好的(省时的)方法来选择最佳主题数?还是有任何减少计算时间的建议?

任何建议都值得欢迎。

1 个答案:

答案 0 :(得分:0)

从中间猜测开始。减少并增加主题数,例如增加50或100,而不是1。检查连贯性得分以哪种方式增加。我相信它会收敛。