一个热门编码器混乱

时间:2013-07-09 07:23:50

标签: python machine-learning classification scikit-learn

这就是我所做的。我认为One hot encoder会发生一些事情。

from sklearn.datasets import make_classification
from sklearn.feature_selection import RFE


X, y = make_classification(n_samples=50, n_features=10, random_state=10)
encoder = preprocessing.LabelEncoder()
encoder.fit(X)
X = encoder.transform(X)
print X
print X.shape

encoder = preprocessing.OneHotEncoder()
encoder.fit(X)
X = encoder.transform(X)


print encoder.feature_indices_

estimator = SVR(kernel="linear")
selector = RFE(estimator, 100, step=1)
selector = selector.fit(X, y)

在X上使用标签编码器后,我得到了一个形状数组(50,10)(很明显)。但在进行一次热编码后,我得到的特征索引如下。

[   0  499  987 1487 1968 2459 2957 3401 3886 4379 4868]

据我所知,2个指数之间的最大范围应该小于或等于行数,不是吗?这是50但是在这里我有500而不是50.我有一个热编码错误或者有一个热编码功能有任何其他问题吗?

(此示例仅用于演示我的问题)

1 个答案:

答案 0 :(得分:1)

行数无关紧要,而是任何给定列(即要素)中行间值的范围。当您打印X时,您将看到任何给定列中的值可能跨越1:500的整个范围。