在R中的频率列表上创建主题模型

时间:2013-12-16 11:37:26

标签: r lda topic-modeling

我一直在使用topicmodels包在R。

中创建LDA模型
require(tm)
require(topicmodels)

textvector <- c("this is one sentence", "this is another one",
                         "a third sentence appears") 
                         #and more, read in through a file
dtm <- DocumentTermMatrix(Corpus(VectorSource(textvector)))
lda.model <- LDA(dtm, 5)

但是它接受文档的唯一方式是实际的文字文档。我想知道是否有办法提供频率图

[word1: 4, word2: 9,  word3: 25, word5:3...]

这显然不是R中的'map',而是任何数据结构(数据框,表,向量列表)表示,允许从字频创建主题模型?

我需要这个的原因是因为主题模型不是在“文档”和“单词”上创建的,而是在图像中创建类似的特征,而长形表示需要太多的空间。

1 个答案:

答案 0 :(得分:0)

您无需使用tm的调用来创建doc-term矩阵。您可以自己创建和发送,只要“文档”在行中,组件“单词”在列中表示即可。但是,您不能简单地在表中提供频率计数,因为LDA依赖于知道哪些单词出现在哪些文档中!