应用错误收集

我正在开发一个我希望实现聚类技术的项目，但数据就是你所谓的相当大的数据，大约13行和约200个颜色。因此，对于任何传统的聚类，例如hclust。

来说，这是一个很大的方法

我的想法是通过获取平衡的数据样本来减小数据的大小。我遇到library(BalancedSampling)，这对大数据集来说效率很高，问题是它似乎只处理数值变量。

是否有任何关于如何以这种方式处理此抽样问题的建议：

library(BalancedSampling)
N <- 10000000
n <- 10000
p <- rep(n/N,N)
X <- cbind(p,apply(t(data.frame(rep(N,123))),2,runif),
           apply(t(data.frame(rep(N,77))),2,function(x) sample(letters,x,replace=T)))
y <- cube(p,X)

另外，考虑到新的样本量，hclust是否合适？或者我应该使用kmeans和gower.dist等其他群集算法？

R中的平衡采样与数字和因子变量

0 个答案: