我的语料库由大约160,000个文档组成。我想使用R中的LDA(特别是 lda 包中的功能 lda.collapsed.gibbs.sampler )对它进行主题建模。
我想确定最佳主题数。似乎常见的过程是拥有一个主题编号的向量,例如,从1到100,然后运行模型100次,然后找到一个具有最大谐波均值或最小困惑度的模型。
但是,鉴于大量文档,最佳主题数可以轻松达到数百甚至数千个。我发现随着主题数量的增加,计算时间将显着增加。即使我使用并行计算,也要几天或几周的时间。
我想知道是否有更好的(省时的)方法来选择最佳主题数?还是有任何减少计算时间的建议?
任何建议都值得欢迎。
答案 0 :(得分:0)
从中间猜测开始。减少并增加主题数,例如增加50或100,而不是1。检查连贯性得分以哪种方式增加。我相信它会收敛。