R中的主题建模

时间:2017-05-09 12:23:54

标签: r tm topic-modeling

我正在根据公开评论数据创建一个相关的主题模型,并得到一个相当奇怪的错误。

当我在CTM上调用术语(ctm1,5)时,我会找回文档的名称而不是每个主题的前5个术语。

我跑得更详细,

library(topicmodels)
library(data.table)
library(tm)

a  <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl = 
list(language="lat")) 
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) 
a <- tm_map(a, stemDocument, language = "english")
adtm <-TermDocumentMatrix(a) 
adtm <- removeSparseTerms(adtm, 0.75)

ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL)
terms(ctm1, 5)

返回

terms(ctm1)
          Topic 1  "cmnt656661.txt" 

(等)

1 个答案:

答案 0 :(得分:0)

我们无法确定,因为您没有提供数据;但很可能你没有正确导入文件。看?DirSource(我的重点):   directory:全路径名的字符向量;默认   对应于工作目录getwd()。 在你的情况下,你似乎应该做这样的事情: a&lt; - Corpus(DirSource(list.files(&#34;〜/ text&#34;,full.names = TRUE)))