我使用R来挖掘推文,我得到了推文中使用的最常用词。然而,最常见的词是这样的:
[1] "cant" "dont" "girl" "gonna" "lol" "love"
[7] "que" "thats" "watching" "wish" "youre"
我正在寻找文本中的趋势,名称和事件。 我想知道是否有办法从语料库中删除这个文本消息样式的单词(如gonna,wantna,...)?对他们有任何停顿吗? 任何帮助将不胜感激。
答案 0 :(得分:4)
文本挖掘包维护着自己的停用词列表,并提供了管理和汇总此类文本的有用工具。
假设您的推文存储在向量中。
library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x,
stopwords()))
您可以将最后一行与您自己的停用词列表():
一起使用stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... )
不幸的是,您必须生成自己的“短信”或“互联网短信”停用词列表。
但是,你可以通过借用NetLingo(http://vps.netlingo.com/acronyms.php)来欺骗一下
library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)