以下是使用gibbs采样训练3328个文本文件后得到的结果。我需要保存包含document_topic概率的文件。伽玛是文档主题的概率吗?但是大多数数字都是平滑的,并且在文档主题概率方面没有很多信息。我应该使用" posterior"功能,以预测训练数据的新数据的概率?
str(TM$Gibbs)
Formal class 'LDA_Gibbs' [package "topicmodels"] with 16 slots
..@ seedwords : NULL
..@ z : int [1:57838] 38 38 38 38 38 38 38 38 38 38 ...
..@ alpha : num 1.11
..@ call : language LDA(x = dtm, k = k, method = "Gibbs", control = list(seed = SEED, burnin = 1000, thin = 100, iter = 1000))
..@ Dim : int [1:2] 3328 10637
..@ control :Formal class 'LDA_Gibbscontrol' [package "topicmodels"] with 14 slots
.. .. ..@ delta : num 0.1
.. .. ..@ iter : int 100
.. .. ..@ thin : int 100
.. .. ..@ burnin : int 1000
.. .. ..@ initialize : chr "random"
.. .. ..@ alpha : num 1.11
.. .. ..@ seed : int 2
.. .. ..@ verbose : int 0
.. .. ..@ prefix : chr "C:\\Users\\Temp\\Rtmp2Du6oL\\file147c58d81cf"
.. .. ..@ save : int 0
.. .. ..@ nstart : int 1
.. .. ..@ best : logi TRUE
.. .. ..@ keep : int 0
.. .. ..@ estimate.beta: logi TRUE
..@ k : int 45
..@ terms : chr [1:10637] "004" "00423n" "00548" "0065" ...
..@ documents : chr [1:3328] "4e7b352b4bd5046c04000000.txt" "4e7b35898d8c37d975000000.txt" "4e7b3623709f036e7a000002.txt" "4e7b37f611fb9c1179000000.txt" ...
..@ beta : num [1:45, 1:10637] -10.1 -10 -10.2 -10.2 -10.2 ...
..@ gamma : num [1:3328, 1:45] 0.0144 0.0458 0.0132 0.0146 0.0159 ...
..@ wordassignments:List of 5
.. ..$ i : int [1:35242] 1 1 1 1 1 1 1 1 1 1 ...
.. ..$ j : int [1:35242] 803 804 1528 1531 1815 2017 3189 4712 6598 6783 ...
.. ..$ v : num [1:35242] 38 38 38 38 38 33 38 38 38 22 ...
.. ..$ nrow: int 3328
.. ..$ ncol: int 10637
.. ..- attr(*, "class")= chr "simple_triplet_matrix"
..@ loglikelihood : num -395662
..@ iter : int 100
..@ logLiks : num(0)
..@ n : int 57838
答案 0 :(得分:0)
我找到新数据主题概率的方法是使用posterior
函数。
posterior(object, newdata)
输出是一个包含元素术语和主题的列表。