使用数字和分类变量来使用sklearn拟合决策树

时间:2017-10-03 17:13:16

标签: scikit-learn decision-tree categorical-data one-hot-encoding

在sklearn中对分类变量使用onehotencoding时,如何使用稀疏矩阵生成以及其他数值变量来拟合决策树? 如果我使用OneHotEncoding将分类变量转换为稀疏矩阵,那么我如何将这个稀疏矩阵与原始数据集中的数值变量结合起来呢?

1 个答案:

答案 0 :(得分:0)

使用:

  • OneHotEncoder,参数categorical_features索引要编码的功能(自动组合所有功能)
    • 默认情况下结果稀疏(使用transform)如果您没有更改sparse=True
  • 或者:仅在变量子集上使用 OneHotEncoder 时,将这些值堆叠到原始值上:
    • scipy.sparse.hstack((onehot, original))
    • 其中onehot的形状为(n_samples, ?(取决于您的特征),而original的形状为(n_samples, ?