我有两列,第一列是' class' (5个类别),第二个是'文字'。我已设法将文本列加载为向量corpus = Corpus(VectorSource(data$Text))
我最终希望将每行中的文字列表缩减为与该课程相关的唯一字词。
input=read.csv("input.csv",stringsAsFactors=FALSE)
library(tm)
library(SnowballC)
corpus = Corpus(DataframeSource(input))
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, removeWords, c("apple", stopwords("english")))
corpus = tm_map(corpus, stemDocument)
corpus = tm_map(corpus, stripWhitespace)
dtm = DocumentTermMatrix(corpus,control=list(weighting=weightTfIdf, minWordLength=2))
当我查看语料库时,它似乎忽略了第一列,“'类'柱。我正在寻找代码来查找哪些单词与不同的类别高度相关,即与第1类相关,而不与其他类相关。
谢谢
答案 0 :(得分:0)
你输了一个拼写错误:
corpus = Corpus(DataframeSrouce(input))
将其更改为:
corpus = Corpus(DataframeSource(input))