Question

我正在完成一个项目，其中我使用R来发送文本并将其与其他变量进行比较。我对编程比较陌生，所以任何帮助都会受到赞赏。

我有一个包含100多个变量的csv文件，其中一个变量是一个用文本填充的注释部分。我已设法清理文件并将列视为语料库并删除英语停用词，删除标点符号等。以下是此代码，读取第一季度数据文件：

com <- read.csv("dataQ1", stringsAsFactors=TRUE)

然后删除NA和空格

comna <- com[!(is.na(com$Comment) | com$Comment==""), ]

创建一个语料库以进一步清理，这可以通过使用tm package来完成，并帮助删除标点符号，数字和英语停用词（例如＆＃39;和＆＃39;或＆＃39;＆＃39;）除此之外，如本代码所示。

corpus <- Corpus(VectorSource(comna$Comment)) 
corpus <- tm_map(corpus, tolower, mc.cores=1) 
corpus <- tm_map(corpus, mc.cores=1, removePunctuation) 
corpus <- tm_map(corpus, removeNumbers, mc.cores=1) 
corpus <- tm_map(corpus, removeWords, stopwords("english"), mc.cores=1) 
corpus <- tm_map(corpus, PlainTextDocument)

现在我想通过将此数据与csv文件中的另一个变量进行比较来探索数据，例如“总体满意度”。＆＃39;因此，如果我提取某些像国外这样的词，＆＃39;和＆＃39;收费，＆＃39;然后使用以下代码在ggplot中绘制如下：

wordExtr <- subset(comna, grepl("abroad|charges", Comment))

os <- ggplot(wordExtr, aes(factor(wordExtr$Overall.Satisfaction))) 
c + geom_bar()

给出以下ggplot：

然而这个图是比较空白空间和NA被删除时的变量我想比较变量和我创建的语料库对象，删除标点符号，大写字母，停用词等等。所以我的两个问题如下。

1。如何选择我创建了语料库对象的列，并将其与“整体满意度”进行比较，＆＃39;可变？，即没有如上所示删除了NA和空格的列。

2。正如我在第1季所述的那样，我可以在第2季度阅读并在同一个ggplot上绘制quater 2的结果吗？因此，例如我想要一个衡量总体满意度的图表，＆＃39;超过4个季度。

任何有关我如何编码的帮助都会有所帮助，如果有任何不清楚的地方，请提出跟进问题。谢谢

R文本挖掘使用tm pacakge和csv中的变量

0 个答案: