在文本挖掘中将TDM CSV文件转换为语料库格式

时间:2014-01-07 11:39:23

标签: r text text-mining

我在R中使用tm包进行文本挖掘。我执行了以下步骤:

导入R系统和创建文本语料库中的数据

dataorg <- read.csv("Report_2014.csv")
corpus <- Corpus(VectorSource(data$Resolution))

清理数据

mystopwords <- c("through","might","much","had","got","with","these")

cleanset <- tm_map(corpus, removeWords, mystopwords)
cleanset <- tm_map(cleanset, tolower)
cleanset <- tm_map(cleanset, removePunctuation)
cleanset <- tm_map(cleanset, removeNumbers)

创建术语文档矩阵

tdm <- TermDocumentMatrix(cleanset)

此时我将TDM数据导出到csv中以执行某些手动清理术语

write.csv(inspect(tdm), file="tdmfile.csv")

现在的问题是我想将清理过的tdm csv文件带回R系统并执行进一步的文本分析,如聚类,频率分析。 但我无法将csv文件转换回tm包算法可接受的语料库格式,因此我无法继续进行文本分析。

如果有人可以帮助我将清理后的csv文件转换为语料库格式,这是非常有用的,这是tm包的文本分析功能可以接受的。

2 个答案:

答案 0 :(得分:0)

首先将csv读回R

df<-read.csv("tdmfile.csv")

然后将矢量(由列名称引用)转换为语料库

corpus<-Corpus(VectorSource(df$column))

如果上述方法不起作用,请尝试在语料库

之前将df转换为utf-8
convert <- iconv(df,to="utf-8-mac")

答案 1 :(得分:-1)

你正在使用关键字Dataorg ...但我没有看到你在代码中提到它的任何地方.... 如果你想将你的csv文件转换为语料库格式只是这个链接的同伴
R text mining documents from CSV file (one row per doc)