Question

我在R中使用tm包进行文本挖掘。我执行了以下步骤：

导入R系统和创建文本语料库中的数据

dataorg <- read.csv("Report_2014.csv")
corpus <- Corpus(VectorSource(data$Resolution))

清理数据

mystopwords <- c("through","might","much","had","got","with","these")

cleanset <- tm_map(corpus, removeWords, mystopwords)
cleanset <- tm_map(cleanset, tolower)
cleanset <- tm_map(cleanset, removePunctuation)
cleanset <- tm_map(cleanset, removeNumbers)

创建术语文档矩阵

tdm <- TermDocumentMatrix(cleanset)

此时我将TDM数据导出到csv中以执行某些手动清理术语

write.csv(inspect(tdm), file="tdmfile.csv")

现在的问题是我想将清理过的tdm csv文件带回R系统并执行进一步的文本分析，如聚类，频率分析。但我无法将csv文件转换回tm包算法可接受的语料库格式，因此我无法继续进行文本分析。

如果有人可以帮助我将清理后的csv文件转换为语料库格式，这是非常有用的，这是tm包的文本分析功能可以接受的。

Answer 1

首先将csv读回R

df<-read.csv("tdmfile.csv")

然后将矢量（由列名称引用）转换为语料库

corpus<-Corpus(VectorSource(df$column))

如果上述方法不起作用，请尝试在语料库

之前将df转换为utf-8

convert <- iconv(df,to="utf-8-mac")

Answer 2

你正在使用关键字Dataorg ...但我没有看到你在代码中提到它的任何地方.... 如果你想将你的csv文件转换为语料库格式只是这个链接的同伴
R text mining documents from CSV file (one row per doc)

在文本挖掘中将TDM CSV文件转换为语料库格式

2 个答案: