Question

我有两列，第一列是＆＃39; class＆＃39; （5个类别），第二个是＆＃39;文字＆＃39;。我已设法将文本列加载为向量corpus = Corpus(VectorSource(data$Text))

我最终希望将每行中的文字列表缩减为与该课程相关的唯一字词。

input=read.csv("input.csv",stringsAsFactors=FALSE)
library(tm)
library(SnowballC)
corpus = Corpus(DataframeSource(input))
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, removeWords, c("apple", stopwords("english")))
corpus = tm_map(corpus, stemDocument)
corpus = tm_map(corpus, stripWhitespace)
dtm = DocumentTermMatrix(corpus,control=list(weighting=weightTfIdf, minWordLength=2))

当我查看语料库时，它似乎忽略了第一列，“＆＃39;类＆＃39;柱。我正在寻找代码来查找哪些单词与不同的类别高度相关，即与第1类相关，而不与其他类相关。

谢谢

Answer 1

你输了一个拼写错误：

corpus = Corpus(DataframeSrouce(input))

将其更改为：

corpus = Corpus(DataframeSource(input))

R，与类别的文本关联

1 个答案: