您是否知道在pySpark(2.0+)中是否有某种方法可以将样本权重放在DecisionTreeClassifier
算法上?
提前谢谢!
答案 0 :(得分:1)
目前在pyspark DecisionTree或DecisionTreeClassifier类中没有超参数来指定类的权重(通常在偏向数据集中需要或者对一个类的真实预测的重要性更重要)
在近期更新中,可能会添加它,您可以在这里跟踪jira中的进度
有一个git分支已经实现了这个,虽然官方没有提供,但你现在可以使用这个pull请求: https://github.com/apache/spark/pull/16722
您尚未指定当前方案以及您希望使用权重的原因,但现在建议的工作是
<强> 1。对数据集进行采样 如果您的数据集具有非常高的偏差,则可以对频率非常高的数据集执行随机欠采样
<强> 2。强制拟合权重 不是一个好方法,但有效。您可以根据权重重复每个类的行。 例如,对于二进制分类,如果(0/1)分类需要1:2的权重,则可以重复标记为1的所有行。