使用R过滤文本挖掘的注释

时间:2015-08-12 10:38:24

标签: r text-mining

我正在使用R和相对较新的编程,所以任何帮助将不胜感激。

我正在进行调查的文本挖掘,并希望使用单词组合过滤评论。已从csv文件中读取数据集。

我想过滤包含"国外"和"收费"

我正在使用grepl函数在注释中识别模式。 我已设法过滤注释部分中包含单词的数据 "在国外"和"收费"使用以下代码:

ac <- filter(data, grepl("abroad|charges", Comment))

  ac$Comment

这将返回带有单词&#34;国外&#34;的评论。和&#34;收费&#34;但它返回的评论可以在国外和#34;或&#34;收费&#34;。我想要两个词的组合。我试过替换|与&amp;但这不起作用。

我也试过了子集:

ac <- subset(data, Comment %in% c("abroad", "charges"))

ac$Comment

这些都不会返回所需的结果。我错过了一些明显的东西吗如何查看仅包含特定单词的注释。因此,如果我想进一步探索我的文本,我可以尝试找到&#34;国外和#34;和&#34;收费&#34;并且&#34;昂贵。&#34;

谢谢任何帮助都会很棒。

1 个答案:

答案 0 :(得分:1)

我们可以在grep内使用带有&运算符的双filter,对于同时包含'国外'和'费用'的字词,它应该只有TRUE string

 filter(data, grepl("abroad", Comment) & grepl('charges', Comment))