如何使用R tm包集群数千个文档?

时间:2014-10-01 19:32:52

标签: r tm hierarchical-clustering large-data

我有大约25000个需要聚类的文档,我希望能够使用R tm包。不幸的是,我的内存耗尽了大约20000个文档。以下函数显示了我尝试使用虚拟数据执行的操作。当我在具有16GB RAM的Windows机器上调用n = 20的函数时,内存不足。我能做出任何优化吗?

感谢您的帮助。

make_clusters <- function(n) {
    require(tm)
    require(slam)
    docs <- unlist(lapply(letters[1:n],function(x) rep(x,1000)))
    tdf <- TermDocumentMatrix(Corpus(VectorSource(docs)),control=list(weighting=weightTfIdf,wordLengths=c(1,Inf)))
    tdf.norm <- col_norms(tdf)
    docs.simil <- crossprod_simple_triplet_matrix(tdf,tdf)/outer(tdf.norm,tdf.norm)
    hh <- hclust(as.dist(1-docs.simil))
}

0 个答案:

没有答案