scikit-learn分类器自动进行单热编码吗?

时间:2018-02-19 19:13:53

标签: python machine-learning scikit-learn classification one-hot-encoding

我对scikit-learn分类器的拟合方法的行为感到困惑。我正在预处理我的数组,该数组识别这些类,使得它们是单热编码的,例如,形状是(n_samples,n_classes)。

但是,当我尝试使用SVC或逻辑回归等算法时,我收到以下错误:ValueError: bad input shape (100, 3)

现在公平地说,文档确实表明for fit(X,y) ,y应定义如下:y : array-like, shape (n_samples,)。另外,如果我只加载Iris数据集,iris.target也是一个长度为n_samples的数组。

我的问题是,当我运行任意分类算法时scikit-learn会自动对这些类进行单热编码吗?如果是这样,则不清楚是否已经避免了作为用户进行该预处理步骤的需要。我假设情况一定如此,因为我的印象是单热编码产生比增量排序类更好的性能。但也许这个假设也是不正确的。

0 个答案:

没有答案