我不清楚LDAModel.topicsMatrix()
的输出。
我想我理解LDA的概念,并且每个主题都由术语分布表示。
LDAModel.describeTopics()
很明显(我认为):
每个主题的句子单词的可能性的最高总和,表示该推文属于主题的证据。
对于n个主题,describeTopics()
的输出是m倍矩阵,其中m代表词汇量的大小。此矩阵中的值小于或等于1.
然而在LDAModel.topicsMatrix()
,我不知道我在看什么。阅读文档时也是如此。
矩阵是m倍n矩阵,尺寸已经改变,并且该矩阵中的值大于零(因此可以取值2,这不是概率值)。这些价值观是什么?这个词在主题中的出现也许是?
如何使用这些值来计算句子与主题的距离?
答案 0 :(得分:0)
我认为矩阵是m * n m是单词编号,n是主题编号