应用错误收集

时间：2018-07-05 07:15:37

标签： python r lda topic-modeling

我的语料库由大约160,000个文档组成。我想使用R中的LDA（特别是 lda 包中的功能 lda.collapsed.gibbs.sampler ）对它进行主题建模。

我想确定最佳主题数。似乎常见的过程是拥有一个主题编号的向量，例如，从1到100，然后运行模型100次，然后找到一个具有最大谐波均值或最小困惑度的模型。

但是，鉴于大量文档，最佳主题数可以轻松达到数百甚至数千个。我发现随着主题数量的增加，计算时间将显着增加。即使我使用并行计算，也要几天或几周的时间。

我想知道是否有更好的（省时的）方法来选择最佳主题数？还是有任何减少计算时间的建议？

任何建议都值得欢迎。

答案 0 :(得分：0)

从中间猜测开始。减少并增加主题数，例如增加50或100，而不是1。检查连贯性得分以哪种方式增加。我相信它会收敛。