使用" topicmodels"训练主题模型后的文档主题概率在R:伽马或后()?

时间:2015-05-11 03:01:05

标签: r topic-modeling topicmodels

以下是使用gibbs采样训练3328个文本文件后得到的结果。我需要保存包含document_topic概率的文件。伽玛是文档主题的概率吗?但是大多数数字都是平滑的,并且在文档主题概率方面没有很多信息。我应该使用" posterior"功能,以预测训练数据的新数据的概率?

str(TM$Gibbs)
Formal class 'LDA_Gibbs' [package "topicmodels"] with 16 slots
  ..@ seedwords      : NULL
  ..@ z              : int [1:57838] 38 38 38 38 38 38 38 38 38 38 ...
  ..@ alpha          : num 1.11
  ..@ call           : language LDA(x = dtm, k = k, method = "Gibbs", control = list(seed = SEED, burnin = 1000, thin = 100, iter = 1000))
  ..@ Dim            : int [1:2] 3328 10637
  ..@ control        :Formal class 'LDA_Gibbscontrol' [package "topicmodels"] with 14 slots
  .. .. ..@ delta        : num 0.1
  .. .. ..@ iter         : int 100
  .. .. ..@ thin         : int 100
  .. .. ..@ burnin       : int 1000
  .. .. ..@ initialize   : chr "random"
  .. .. ..@ alpha        : num 1.11
  .. .. ..@ seed         : int 2
  .. .. ..@ verbose      : int 0
  .. .. ..@ prefix       : chr "C:\\Users\\Temp\\Rtmp2Du6oL\\file147c58d81cf"
  .. .. ..@ save         : int 0
  .. .. ..@ nstart       : int 1
  .. .. ..@ best         : logi TRUE
  .. .. ..@ keep         : int 0
  .. .. ..@ estimate.beta: logi TRUE
  ..@ k              : int 45
  ..@ terms          : chr [1:10637] "004" "00423n" "00548" "0065" ...
  ..@ documents      : chr [1:3328] "4e7b352b4bd5046c04000000.txt" "4e7b35898d8c37d975000000.txt" "4e7b3623709f036e7a000002.txt" "4e7b37f611fb9c1179000000.txt" ...
  ..@ beta           : num [1:45, 1:10637] -10.1 -10 -10.2 -10.2 -10.2 ...
  ..@ gamma          : num [1:3328, 1:45] 0.0144 0.0458 0.0132 0.0146 0.0159 ...
  ..@ wordassignments:List of 5
  .. ..$ i   : int [1:35242] 1 1 1 1 1 1 1 1 1 1 ...
  .. ..$ j   : int [1:35242] 803 804 1528 1531 1815 2017 3189 4712 6598 6783 ...
  .. ..$ v   : num [1:35242] 38 38 38 38 38 33 38 38 38 22 ...
  .. ..$ nrow: int 3328
  .. ..$ ncol: int 10637
  .. ..- attr(*, "class")= chr "simple_triplet_matrix"
  ..@ loglikelihood  : num -395662
  ..@ iter           : int 100
  ..@ logLiks        : num(0) 
  ..@ n              : int 57838

1 个答案:

答案 0 :(得分:0)

我找到新数据主题概率的方法是使用posterior函数。

posterior(object, newdata)

输出是一个包含元素术语和主题的列表。