R中的平衡采样与数字和因子变量

时间:2016-04-12 22:38:53

标签: r random cluster-analysis bigdata

我正在开发一个我希望实现聚类技术的项目,但数据就是你所谓的相当大的数据,大约13行和约200个颜色。因此,对于任何传统的聚类,例如hclust

来说,这是一个很大的方法

我的想法是通过获取平衡的数据样本来减小数据的大小。我遇到library(BalancedSampling),这对大数据集来说效率很高,问题是它似乎只处理数值变量。

是否有任何关于如何以这种方式处理此抽样问题的建议:

library(BalancedSampling)
N <- 10000000
n <- 10000
p <- rep(n/N,N)
X <- cbind(p,apply(t(data.frame(rep(N,123))),2,runif),
           apply(t(data.frame(rep(N,77))),2,function(x) sample(letters,x,replace=T)))
y <- cube(p,X)

另外,考虑到新的样本量,hclust是否合适?或者我应该使用kmeansgower.dist等其他群集算法?

0 个答案:

没有答案