我有以下代码为我的Twitter情绪分析创建干净的文本。我想添加另一行来删除某些我不希望包含在此分析中的单词,例如" crap"," sick"等等。有人请建议如何这样做?
tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)
答案 0 :(得分:0)
使用最新的&#34; tm&#34;在R中打包,你可以删除单词..
library(tm)
myCorpOld <- Corpus(VectorSource(YourFirstDFonTweet$text)
请注意关于语料库制作,&#34; YourFirstDFonTweet&#34;是您可能从下载的推文中创建的Dataframe。
#remove "crap" and "sick" from
txt <- setdiff(say_txt, c("crap", "sick"))
#remove these form corpus
myCorpUpdate <- tm_map(myCorpOld, txt)
我希望这能让您了解如何解决问题。