如何控制scikit-learn决策树算法的精度

时间:2017-07-10 21:10:50

标签: python numpy scikit-learn precision decision-tree

我正在使用scikit-learn决策树来解决分类问题。 我的输入数据精度为4个小数点。但是,由于binary representation errors,它们内部的numpy表示可能有超过4个小数点。

在计算二叉树时,有没有办法指示sklearn算法不使用超过4个小数点的阈值?否则我担心在很大的深度上结果可能毫无意义。

1 个答案:

答案 0 :(得分:1)

在构造决策树时避免与浮点表示相关联的数字错误的一种可能方法是使用整数而不是浮点来拟合模型。如果您的输入数据具有4位数的精度,您只需将其乘以10 4 并将该舍入值调整为最接近的整数,并将结果转换为整数,如下所示:

Make.user

通过此功能缩放,可以更准确地计算条件阈值。

演示

input_data = np.int32(np.around(input_data * 10**4))