我在Spark 1.5中使用LDA算法。我首先在训练数据上构建分布式LDA模型,然后使用它来评估新的/看不见的数据。我使用这个1来生成关于看不见的数据的主题分布。
newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)
想法是打印每个新文档中讨论的主要主题。如何将上述主题分布链接到分布式模型中的主题以及每个新文档显示(1)前5个主要主题的最高权重10个术语(2)文档中提到的哪些术语发生在顶部新的/看不见的文件的前5个主要主题的加权K术语?