Question

我正在使用'tm'R包对一小部分推文进行分析。数据位于csv文件中，包含一些元数据和推文本身，如下所示：

2461,1425999216,RT @victoriavaneyk: Bitcoin is being used by African migrant workers to send money home #Bitcoin http://t.co/z0Lkm2ncUw,2.9690174302789387

我将文件读入数据框并尝试从中构建语料库：

data <- read.csv(file, header=TRUE)
corpus <- Corpus(DataframeSource(data))

数据框似乎包含了我所期望的内容，包括推文的文本。但是当我检查语料库时，似乎所有文本都被一些整数值替换。这个整数来自哪里？为什么推文的文字丢失了？

> inspect(corpus[1])
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
2461
1425999216
2940
2.96901743027894

Answer 1

data <- read.csv(file, header=TRUE, stringsAsFactors=FALSE)

语料库没有正确阅读R中的文本

1 个答案: