首先,我要说我对机器学习,kmeans和r相当新,而且这个项目是一个了解更多信息并将这些数据提供给我们的CIO以便我可以使用它的方法。在开发新的服务台系统时。
我有一个60K的行文本文件。该文件包含教师在3年内输入的服务台门票的标题。
我想创建一个r程序来获取这些标题并创建一组类别。例如,与打印问题相关的术语,或与投影仪灯泡相关的一组术语。我用r打开文本文档,清理数据,删除停止词和其他我认为没有必要的词。我已经获得了频率> = 400的所有条款的列表,并将其保存到文本文件中。
但现在我想申请(如果可以做或适当的话)kmeans聚类到同一个数据集,看看我是否可以提出类别。
下面的代码包含的代码将写出使用的术语列表> = 400.它在最后,并被注释掉。
library(tm) #load text mining library
library(SnowballC)
options(max.print=5.5E5)
setwd('c:/temp/') #sets R's working directory to near where my files are
ae.corpus<-Corpus(DirSource("c:/temp/"),readerControl=list(reader=readPlain))
summary(ae.corpus) #check what went in
ae.corpus <- tm_map(ae.corpus, tolower)
ae.corpus <- tm_map(ae.corpus, removePunctuation)
ae.corpus <- tm_map(ae.corpus, removeNumbers)
ae.corpus <- tm_map(ae.corpus, stemDocument, language = "english")
myStopwords <- c(stopwords('english'), <a very long list of other words>)
ae.corpus <- tm_map(ae.corpus, removeWords, myStopwords)
ae.corpus <- tm_map(ae.corpus, PlainTextDocument)
ae.tdm <- DocumentTermMatrix(ae.corpus, control = list(minWordLength = 5))
dtm.weight <- weightTfIdf(ae.tdm)
m <- as.matrix(dtm.weight)
rownames(m) <- 1:nrow(m)
#euclidian
norm_eucl <- function(m) {
m/apply(m,1,function(x) sum(x^2)^.5)
}
m_norm <- norm_eucl(m)
results <- kmeans(m_norm,25)
#list clusters
clusters <- 1:25
for (i in clusters){
cat("Cluster ",i,":",findFreqTerms(dtm.weight[results$cluster==i],400,"\n\n"))
}
#inspect(ae.tdm)
#fft <- findFreqTerms(ae.tdm, lowfreq=400)
#write(fft, file = "dataTitles.txt",
# ncolumns = 1,
# append = FALSE, sep = " ")
#str(fft)
#inspect(fft)
当我使用RStudio运行时,我得到:
> results <- kmeans(m_norm,25)
Error in sample.int(m, k) : cannot take a sample larger than the population when 'replace = FALSE'
我不确定这意味着什么,而且我还没有在网上找到很多这方面的信息。有什么想法吗?
TIA
答案 0 :(得分:0)
您正在读取多行中的单个文件,而不是目录中的多个文件。而不是
ae.corpus<-Corpus(DirSource("c:/temp/"),readerControl=list(reader=readPlain))`
你需要使用
text <- readLines("c:\\temp\\your_file_name", n = -1)
ae.corpus<-Corpus(VectorSource(text),readerControl=list(reader=readPlain))
然后你会得到一个包含60K文件的语料库,而不是一个包含60k行文件的文件。
答案 1 :(得分:0)
我遇到了同样的问题,最后我发现目标簇的数量大于某些类型的数据行。因为您所使用的每种类型的数据可能小于目标簇数。