R - 情感分析 - 如何删除某些单词

时间:2016-04-09 05:23:09

标签: r twitter gsub sentiment-analysis

我有以下代码为我的Twitter情绪分析创建干净的文本。我想添加另一行来删除某些我不希望包含在此分析中的单词,例如" crap"," sick"等等。有人请建议如何这样做?

tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)

1 个答案:

答案 0 :(得分:0)

使用最新的&#34; tm&#34;在R中打包,你可以删除单词..

library(tm)
myCorpOld <- Corpus(VectorSource(YourFirstDFonTweet$text)

请注意关于语料库制作,&#34; YourFirstDFonTweet&#34;是您可能从下载的推文中创建的Dataframe。

#remove "crap" and "sick" from 
txt <- setdiff(say_txt, c("crap", "sick"))

#remove these form corpus
myCorpUpdate <- tm_map(myCorpOld, txt)

我希望这能让您了解如何解决问题。