Question

我共有54892份文件。从数据库中检索它们之后，我应该如何将它们转换为可以用于使用LDA进行主题建模的语料库？

这是我尝试过的代码：

library(RMySQL)
library(RTextTools)
library(topicmodels)
library(tm)

con <- dbConnect(MySQL(), user="root", password="root", dbname="dbtemp", host="localhost")
rs <- dbSendQuery(con, "select text_body from all_text;")
data <- fetch(rs, n=54892)
huh <- dbHasCompleted(rs)
dbClearResult(rs)
dbDisconnect(con)

我提到了此page，并注意到来自data行的data <- NYTimes[sample(1:3100,size=1000,replace=FALSE),]的输出包含一个两列表以及另一个名为TopicCode的表，然后将此data转换为术语 - 文档频率矩阵。我不知道如何从我从数据库中检索到的两个列中获取TopicCode？

我在Python中尝试过类似的问题，我将数据转换为Market Matrix格式。我想在R中使用此文件进行进一步计算。我尝试使用b <- readMM(file="PRC.mm")阅读此文件，当我打印b时，我得到了一个336331X88矩阵，看起来像：

. . 2 . . . . . . 1 1 . 1 . . 1 . 2 . . . . . . . . . . . . . ......
. 1 . . . . . . 1 1 . . . . . . . . . . . . . . . . . . . . . ......
. . . . . . . . . 1 1 1 . . . 2 . . . . . . . 1 . . 1 . . . . ......
. . 1 . . . 2 . . . . 1 1 . . . . . . . 1 . . . . . . . . . . ......

其中.表示0.这看起来像一个术语 - 文档矩阵，但我仍想在R中重制这种矩阵。我该怎么办？

将数据库输出转换为语料库以进行主题建模

0 个答案: