开始使用文本分析,在R

时间:2017-12-27 22:41:09

标签: r dataframe text-analysis

我在R中进行文本分析。到目前为止,我有一个包含csv中的语料库和元数据的向量,我想与它合并。这是我如何以矢量形式获得语料库

corpus <- VCorpus(VectorSource(alldocs)) # corpus is a vector

以下是元数据:

metadata <- read.csv("alldocs.csv", header = TRUE, na.strings = c(""), sep = ",")

我如何将两者结合起来?我想按顺序组合它们(即。,语料库中的第一个文档对应于 csv 等中的第一行)。最后,我想要一个数据框,其中每一行对应于语料库中的正确文档。

更新: 我被告知试图使问题重现。

我开始使用包含我所有文本的文件夹。我首先将它们加载到矢量中:

alldocs <- Corpus(
  DirSource("/path/file/wheredocumentsare"),
  readerControl = list(reader = readPlain, language = "en", load = FALSE)
)

corpus <- VCorpus(VectorSource(alldocs)) # corpus is a vector
metadata <- read.csv("metadata.csv", header = TRUE, na.strings = c(""), sep = ",")

我想结合元数据和语料库。当我输入时,

fulldata <- data.frame(corpus, metadata)

我收到以下错误消息

  

Error in as.data.frame.default(x[[i]], optional = TRUE, stringsAsFactors = stringsAsFactors) : cannot coerce class "c("VCorpus", "Corpus")" to a data.frame

0 个答案:

没有答案