我正在使用'tm'R包对一小部分推文进行分析。数据位于csv文件中,包含一些元数据和推文本身,如下所示:
2461,1425999216,RT @victoriavaneyk: Bitcoin is being used by African migrant workers to send money home #Bitcoin http://t.co/z0Lkm2ncUw,2.9690174302789387
我将文件读入数据框并尝试从中构建语料库:
data <- read.csv(file, header=TRUE)
corpus <- Corpus(DataframeSource(data))
数据框似乎包含了我所期望的内容,包括推文的文本。但是当我检查语料库时,似乎所有文本都被一些整数值替换。这个整数来自哪里?为什么推文的文字丢失了?
> inspect(corpus[1])
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>
[[1]]
<<PlainTextDocument (metadata: 7)>>
2461
1425999216
2940
2.96901743027894
答案 0 :(得分:0)
data <- read.csv(file, header=TRUE, stringsAsFactors=FALSE)