R,与类别的文本关联

时间:2014-06-03 08:41:49

标签: r text tm

我有两列,第一列是' class' (5个类别),第二个是'文字'。我已设法将文本列加载为向量corpus = Corpus(VectorSource(data$Text))

我最终希望将每行中的文字列表缩减为与该课程相关的唯一字词。

input=read.csv("input.csv",stringsAsFactors=FALSE)
library(tm)
library(SnowballC)
corpus = Corpus(DataframeSource(input))
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, removeWords, c("apple", stopwords("english")))
corpus = tm_map(corpus, stemDocument)
corpus = tm_map(corpus, stripWhitespace)
dtm = DocumentTermMatrix(corpus,control=list(weighting=weightTfIdf, minWordLength=2))

当我查看语料库时,它似乎忽略了第一列,“'类'柱。我正在寻找代码来查找哪些单词与不同的类别高度相关,即与第1类相关,而不与其他类相关。

谢谢

1 个答案:

答案 0 :(得分:0)

你输了一个拼写错误:

corpus = Corpus(DataframeSrouce(input))

将其更改为:

corpus = Corpus(DataframeSource(input))