我共有54892份文件。从数据库中检索它们之后,我应该如何将它们转换为可以用于使用LDA进行主题建模的语料库?
这是我尝试过的代码:
library(RMySQL)
library(RTextTools)
library(topicmodels)
library(tm)
con <- dbConnect(MySQL(), user="root", password="root", dbname="dbtemp", host="localhost")
rs <- dbSendQuery(con, "select text_body from all_text;")
data <- fetch(rs, n=54892)
huh <- dbHasCompleted(rs)
dbClearResult(rs)
dbDisconnect(con)
我提到了此page,并注意到来自data
行的data <- NYTimes[sample(1:3100,size=1000,replace=FALSE),]
的输出包含一个两列表以及另一个名为TopicCode
的表,然后将此data
转换为术语 - 文档频率矩阵。我不知道如何从我从数据库中检索到的两个列中获取TopicCode
?
我在Python中尝试过类似的问题,我将数据转换为Market Matrix格式。我想在R中使用此文件进行进一步计算。我尝试使用b <- readMM(file="PRC.mm")
阅读此文件,当我打印b
时,我得到了一个336331X88
矩阵,看起来像:
. . 2 . . . . . . 1 1 . 1 . . 1 . 2 . . . . . . . . . . . . . ......
. 1 . . . . . . 1 1 . . . . . . . . . . . . . . . . . . . . . ......
. . . . . . . . . 1 1 1 . . . 2 . . . . . . . 1 . . 1 . . . . ......
. . 1 . . . 2 . . . . 1 1 . . . . . . . 1 . . . . . . . . . . ......
其中.
表示0.这看起来像一个术语 - 文档矩阵,但我仍想在R中重制这种矩阵。我该怎么办?