将数据库输出转换为语料库以进行主题建模

时间:2014-02-02 15:43:50

标签: r lda topic-modeling

我共有54892份文件。从数据库中检索它们之后,我应该如何将它们转换为可以用于使用LDA进行主题建模的语料库?

这是我尝试过的代码:

library(RMySQL)
library(RTextTools)
library(topicmodels)
library(tm)

con <- dbConnect(MySQL(), user="root", password="root", dbname="dbtemp", host="localhost")
rs <- dbSendQuery(con, "select text_body from all_text;")
data <- fetch(rs, n=54892)
huh <- dbHasCompleted(rs)
dbClearResult(rs)
dbDisconnect(con)

我提到了此page,并注意到来自data行的data <- NYTimes[sample(1:3100,size=1000,replace=FALSE),]的输出包含一个两列表以及另一个名为TopicCode的表,然后将此data转换为术语 - 文档频率矩阵。我不知道如何从我从数据库中检索到的两个列中获取TopicCode

我在Python中尝试过类似的问题,我将数据转换为Market Matrix格式。我想在R中使用此文件进行进一步计算。我尝试使用b <- readMM(file="PRC.mm")阅读此文件,当我打印b时,我得到了一个336331X88矩阵,看起来像:

. . 2 . . . . . . 1 1 . 1 . . 1 . 2 . . . . . . . . . . . . . ......
. 1 . . . . . . 1 1 . . . . . . . . . . . . . . . . . . . . . ......
. . . . . . . . . 1 1 1 . . . 2 . . . . . . . 1 . . 1 . . . . ......
. . 1 . . . 2 . . . . 1 1 . . . . . . . 1 . . . . . . . . . . ......

其中.表示0.这看起来像一个术语 - 文档矩阵,但我仍想在R中重制这种矩阵。我该怎么办?

0 个答案:

没有答案