我无法确定在集成模型中对数据进行二次采样时,Spark是否实现了任何类型的(结果)标签平衡。这两个参数描述均未提及特定的采样实现。我想知道样本是否以任何方式得到平衡。
如果这是一个简单的引导程序样本,那么如果对罕见的结果进行建模并且绘制了没有一个标签实例的子样本,将会发生什么?
摘自Ensembles文档:
subsamplingRate:此参数指定使用的数据集的大小 训练森林中的每棵树, 原始数据集。建议使用默认值(1.0),但应减小 这部分可以加快训练速度。
摘自Decision Tree文档:
subsamplingRate:用于学习 决策树。此参数与训练合奏最相关 的树木(使用RandomForest和GradientBoostedTrees),它可以 对原始数据进行二次采样很有用。对于训练单 决策树,此参数的用处不大,因为 训练实例通常不是主要限制因素。