我正在开发一个我希望实现聚类技术的项目,但数据就是你所谓的相当大的数据,大约13行和约200个颜色。因此,对于任何传统的聚类,例如hclust
。
我的想法是通过获取平衡的数据样本来减小数据的大小。我遇到library(BalancedSampling)
,这对大数据集来说效率很高,问题是它似乎只处理数值变量。
是否有任何关于如何以这种方式处理此抽样问题的建议:
library(BalancedSampling)
N <- 10000000
n <- 10000
p <- rep(n/N,N)
X <- cbind(p,apply(t(data.frame(rep(N,123))),2,runif),
apply(t(data.frame(rep(N,77))),2,function(x) sample(letters,x,replace=T)))
y <- cube(p,X)
另外,考虑到新的样本量,hclust
是否合适?或者我应该使用kmeans
和gower.dist
等其他群集算法?