Question

我有以下代码为我的Twitter情绪分析创建干净的文本。我想添加另一行来删除某些我不希望包含在此分析中的单词，例如＆＃34; crap＆＃34;，＆＃34; sick＆＃34;等等。有人请建议如何这样做？

tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)

Answer 1

使用最新的＆＃34; tm＆＃34;在R中打包，你可以删除单词..

library(tm)
myCorpOld <- Corpus(VectorSource(YourFirstDFonTweet$text)

请注意关于语料库制作，＆＃34; YourFirstDFonTweet＆＃34;是您可能从下载的推文中创建的Dataframe。

#remove "crap" and "sick" from 
txt <- setdiff(say_txt, c("crap", "sick"))

#remove these form corpus
myCorpUpdate <- tm_map(myCorpOld, txt)

我希望这能让您了解如何解决问题。

R - 情感分析 - 如何删除某些单词

1 个答案: