Question

我使用R来挖掘推文，我得到了推文中使用的最常用词。然而，最常见的词是这样的：

 [1] "cant"     "dont"     "girl"     "gonna"    "lol"      "love"    
 [7] "que"      "thats"    "watching" "wish"     "youre"

我正在寻找文本中的趋势，名称和事件。我想知道是否有办法从语料库中删除这个文本消息样式的单词（如gonna，wantna，...）？对他们有任何停顿吗？任何帮助将不胜感激。

Answer 1

文本挖掘包维护着自己的停用词列表，并提供了管理和汇总此类文本的有用工具。

假设您的推文存储在向量中。

library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x, 
                stopwords()))

您可以将最后一行与您自己的停用词列表（）：

一起使用

stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... )

不幸的是，您必须生成自己的“短信”或“互联网短信”停用词列表。

但是，你可以通过借用NetLingo（http://vps.netlingo.com/acronyms.php）来欺骗一下

library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)

寻找twit和短信风格的关键词

1 个答案: