机器学习的混合参数类型

时间:2016-03-03 16:37:07

标签: python machine-learning scikit-learn regression

我希望使用一组参数拟合逻辑回归模型。我拥有的参数包括三种不同类型的数据:

  • 二进制数据[0,1]
  • 已编码为整数[0,1,2,3,...]
  • 的分类数据
  • 连续数据

在拟合回归模型之前,我有两个关于预处理参数数据的问题:

  1. 对于分类数据,我已经看到了两种方法来处理这个问题。第一种方法是使用一个热编码器,从而为每个类别提供一个新参数。第二种方法是在单个参数变量[0,1,2,3,4,...]中用整数编码类别。据我所知,使用一个热编码器会产生更多参数,因此会增加过度拟合模型的风险;然而,除此之外,是否有任何理由更喜欢一种方法而不是另一种?
  2. 我想规范化参数数据,以解决连续数据和二进制数据之间的巨大差异。归一化二进制和分类数据通常是否可以接受?我应该标准化分类和连续参数,而不是二进制参数,或者我可以将所有参数数据类型标准化。
  3. 我意识到我可以使用随机森林模型来拟合这些数据,而不必担心预处理,但我很好奇这对于回归类型模型是如何适用的。

    提前感谢您的时间和考虑。

0 个答案:

没有答案