应用错误收集

我在R中使用h2o kmeans来划分我的人口。该方法需要进行审核，因此我想解释一下h2o的kmeans中使用的阈值。

在h2o kmeans（http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/k-means.html）的文档中，有人说：

H2O使用误差比例减少（PRE）来确定何时发生   停止分裂。 PRE值基于总和计算   （SSW）内的正方形。

PRE =（SSW [拆分前] -SSW [拆分后]）/ SSW [拆分前]

当PRE低于阈值时，H2O会停止分裂，即阈值   函数的变量数和案例数为   如下所述：

阈值取这两个值中较小的一个：

0.8或[0.02 + 10 / number_of_training_rows +   2.5 /（number_of_model_features）^ 2]

源代码（https://github.com/h2oai/h2o-3/blob/master/h2o-algos/src/main/java/hex/kmeans/KMeans.java）的名称为：

final double rel_improvement_cutoff = Math.min（0.02 + 10. / _train.numRows（）+ 2.5 / Math.pow（model._output.nfeatures（），2），0.8）;

这个门槛来自哪里？有关于它的科学论文吗？

展示阈值h2o kmeans

1 个答案: