我在R中使用tm包进行文本挖掘。我执行了以下步骤:
导入R系统和创建文本语料库中的数据
dataorg <- read.csv("Report_2014.csv")
corpus <- Corpus(VectorSource(data$Resolution))
清理数据
mystopwords <- c("through","might","much","had","got","with","these")
cleanset <- tm_map(corpus, removeWords, mystopwords)
cleanset <- tm_map(cleanset, tolower)
cleanset <- tm_map(cleanset, removePunctuation)
cleanset <- tm_map(cleanset, removeNumbers)
创建术语文档矩阵
tdm <- TermDocumentMatrix(cleanset)
此时我将TDM数据导出到csv中以执行某些手动清理术语
write.csv(inspect(tdm), file="tdmfile.csv")
现在的问题是我想将清理过的tdm csv文件带回R系统并执行进一步的文本分析,如聚类,频率分析。 但我无法将csv文件转换回tm包算法可接受的语料库格式,因此我无法继续进行文本分析。
如果有人可以帮助我将清理后的csv文件转换为语料库格式,这是非常有用的,这是tm包的文本分析功能可以接受的。
答案 0 :(得分:0)
首先将csv读回R
df<-read.csv("tdmfile.csv")
然后将矢量(由列名称引用)转换为语料库
corpus<-Corpus(VectorSource(df$column))
如果上述方法不起作用,请尝试在语料库
之前将df转换为utf-8convert <- iconv(df,to="utf-8-mac")
答案 1 :(得分:-1)
你正在使用关键字Dataorg ...但我没有看到你在代码中提到它的任何地方....
如果你想将你的csv文件转换为语料库格式只是这个链接的同伴
R text mining documents from CSV file (one row per doc)