Spark MLLIB LDA topicsmatrix的输出是什么?

时间:2016-07-05 19:04:03

标签: python apache-spark-mllib bayesian lda

我不清楚LDAModel.topicsMatrix()的输出。 我想我理解LDA的概念,并且每个主题都由术语分布表示。

LDAModel.describeTopics()很明显(我认为): 每个主题的句子单词的可能性的最高总和,表示该推文属于主题的证据。 对于n个主题,describeTopics()的输出是m倍矩阵,其中m代表词汇量的大小。此矩阵中的值小于或等于1.

然而在LDAModel.topicsMatrix(),我不知道我在看什么。阅读文档时也是如此。 矩阵是m倍n矩阵,尺寸已经改变,并且该矩阵中的值大于零(因此可以取值2,这不是概率值)。这些价值观是什么?这个词在主题中的出现也许是?

如何使用这些值来计算句子与主题的距离?

1 个答案:

答案 0 :(得分:0)

我认为矩阵是m * n m是单词编号,n是主题编号