R文本挖掘使用tm pacakge和csv中的变量

时间:2015-10-10 21:00:37

标签: r ggplot2 text-mining tm corpus

我正在完成一个项目,其中我使用R来发送文本并将其与其他变量进行比较。我对编程比较陌生,所以任何帮助都会受到赞赏。

我有一个包含100多个变量的csv文件,其中一个变量是一个用文本填充的注释部分。我已设法清理文件并将列视为语料库并删除英语停用词,删除标点符号等。以下是此代码,读取第一季度数据文件:

com <- read.csv("dataQ1", stringsAsFactors=TRUE)

然后删除NA和空格

comna <- com[!(is.na(com$Comment) | com$Comment==""), ]

创建一个语料库以进一步清理,这可以通过使用tm package来完成,并帮助删除标点符号,数字和英语停用词(例如&#39;和&#39;或&#39;&#39;)除此之外,如本代码所示。

corpus <- Corpus(VectorSource(comna$Comment)) 
corpus <- tm_map(corpus, tolower, mc.cores=1) 
corpus <- tm_map(corpus, mc.cores=1, removePunctuation) 
corpus <- tm_map(corpus, removeNumbers, mc.cores=1) 
corpus <- tm_map(corpus, removeWords, stopwords("english"), mc.cores=1) 
corpus <- tm_map(corpus, PlainTextDocument)

现在我想通过将此数据与csv文件中的另一个变量进行比较来探索数据,例如“总体满意度”。&#39;因此,如果我提取某些像国外这样的词,&#39;和&#39;收费,&#39;然后使用以下代码在ggplot中绘制如下:

wordExtr <- subset(comna, grepl("abroad|charges", Comment))

os <- ggplot(wordExtr, aes(factor(wordExtr$Overall.Satisfaction))) 
c + geom_bar()

给出以下ggplot:enter image description here

然而这个图是比较空白空间和NA被删除时的变量我想比较变量和我创建的语料库对象,删除标点符号,大写字母,停用词等等。所以我的两个问题如下。

1。如何选择我创建了语料库对象的列,并将其与“整体满意度”进行比较,&#39;可变?,即没有如上所示删除了NA和空格的列。

2。正如我在第1季所述的那样,我可以在第2季度阅读并在同一个ggplot上绘制quater 2的结果吗?因此,例如我想要一个衡量总体满意度的图表,& #39;超过4个季度。

任何有关我如何编码的帮助都会有所帮助,如果有任何不清楚的地方,请提出跟进问题。谢谢

0 个答案:

没有答案