在Python中为随机森林选择正确的分布

时间:2017-09-09 07:32:49

标签: python machine-learning

我目前使用的数据在0.5和1.0之间变化,其中一组值约为0.5-0.6,然后是几个值。然后我使用随机森林作为分类器,我想知道什么是规范化这些值的最佳方法?或者没有必要规范化吗?

目前我只是使用,我错过了一个技巧吗?

RandomForestClassifier(random_state=42)

1 个答案:

答案 0 :(得分:0)

随机森林对于单个特征的单调变换是不变的。翻译或每个功能缩放不会改变随机森林的任何内容。

不,随机森林不需要缩放或标准化。

  • RF的本质是收敛和数值精度问题,有时会使逻辑和线性回归中使用的算法以及神经网络绊倒,并不那么重要。因此,您不需要像使用NN那样将变量转换为通用比例。
  • 你没有得到回归系数的任何类比,回归系数衡量每个预测变量和响应之间的关系。因此,您也不需要考虑如何解释受可变测量尺度影响的系数。

参考:

Do I need to normalize (or scale) data for randomForest (R package)?