来自CSV文件的R文本挖掘文档(每个文档一行)

时间:2013-08-01 14:50:02

标签: r text-mining documents corpus tm

我正在尝试使用R中的tm包,并且有一个客户反馈的CSV文件,每行都是不同的反馈实例。我想将此反馈的所有内容导入语料库,但我希望每行都是语料库中的不同文档,以便我可以比较DocTerms矩阵中的反馈。我的数据集中有超过10,000行。

最初我做了以下事情:

fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t")

这会创建一个包含1个文档和> 10,000行的语料库,我想要&gt; 10,000个文档,每个文档包含1行。

我想我可以在一个文件夹中拥有10,000多个单独的CSV或TXT文档并从中创建一个语料库...但我认为有一个比这简单得多的答案,将每一行作为单独的文档阅读。

2 个答案:

答案 0 :(得分:18)

这是一个完整的工作流程,可以满足您的需求:

# change this file location to suit your machine
file_loc <- "C:\\Documents and Settings\\Administrator\\Desktop\\Book1.csv"
# change TRUE to FALSE if you have no column headings in the CSV
x <- read.csv(file_loc, header = TRUE)
require(tm)
corp <- Corpus(DataframeSource(x))
dtm <- DocumentTermMatrix(corp)

dtm对象中,每一行都是doc,或原始CSV文件的一行。每列都是一个单词。

答案 1 :(得分:0)

您可以在TermDocumentMatrix()对象上使用fdbk,并获取一个术语文档矩阵,其中每一行代表客户反馈。