寻找twit和短信风格的关键词

时间:2012-11-26 04:33:28

标签: r nlp text-mining stop-words

我使用R来挖掘推文,我得到了推文中使用的最常用词。然而,最常见的词是这样的:

 [1] "cant"     "dont"     "girl"     "gonna"    "lol"      "love"    
 [7] "que"      "thats"    "watching" "wish"     "youre"  

我正在寻找文本中的趋势,名称和事件。 我想知道是否有办法从语料库中删除这个文本消息样式的单词(如gonna,wantna,...)?对他们有任何停顿吗? 任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:4)

文本挖掘包维护着自己的停用词列表,并提供了管理和汇总此类文本的有用工具。

假设您的推文存储在向量中。

library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x, 
                stopwords()))

您可以将最后一行与您自己的停用词列表():

一起使用
stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... ) 

不幸的是,您必须生成自己的“短信”或“互联网短信”停用词列表。

但是,你可以通过借用NetLingo(http://vps.netlingo.com/acronyms.php)来欺骗一下

library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)