R中的Kmeans聚类和文本挖掘

时间:2016-11-26 10:37:11

标签: r k-means text-mining

我有一个txt文件,其中包含twitter数据(只有1个文件)。我使用streamR和parseTweets函数将其加载到R中。我需要对这些数据进行Kmeans聚类。首先,我需要清理和准备数据,但数据是数字,字符的组合,它不允许我这样做:(例如)内容转换权限。
如何从这些数据中删除所有不需要的字符?我只需要纯文本。没有数字,特殊字符等

*library(streamR)
install.packages("RCurl")
install.packages("bitops")
install.packages("rjson")
library(bitops)
library(RCurl)
library(rjson)
library(NLP)
library(tm)
library(SnowballC)
library(XML)
tweets.df<-parseTweets('tweetsStream.txt', simplify = FALSE);
tweets.df<-tm_map(tweets.df,content_transformer(tolower));
Error in UseMethod("tm_map", x) : 
  no applicable method for 'tm_map' applied to an object of class "data.frame"*

1 个答案:

答案 0 :(得分:1)

tm_map函数将Corpus作为输入数据类型获取。试试这个:

docs <- Corpus(DirSource(cname))
docs <- tm_map(docs, tolower)

在此处查找完整示例:https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html

有关详细信息,请始终运行

??tm_map??tm以获取R控制台中的整个文档。

此致 马库斯