在Python

时间:2018-04-06 02:09:48

标签: python scikit-learn feature-extraction categorical-data

我一直在尝试使用Anaconda发行版学习Python 3.6。我已经使用了我正在使用的在线课程的内容,并且可以使用一些帮助来处理一些错误消息。我问过课程的导师,但他们似乎对学生提出的问题没有反应。

我在处理用于重新编码分类数据的三个主要类时遇到了一些麻烦。据我了解,有三个类用于重新编码变量的scikitlearn包:LabelEncoder,OneHotEncoder和LabelBinarizer。我试图使用每个来重新编码数据集中的分类变量,但不断为每个变量获取错误。

请原谅我对样本代码的相对无效性。正如人们可能已经猜到我的问题的基础,我不熟悉python。

对象X包含几列,第一列是我需要转换的分类字符串(如果有人也可以告诉我如何插入表格,那将是有帮助的。我是否必须使用HTML?):

"鱼" 1 5 3
"狗" 2 6 9
"狗" 8 8 8
"目录" 5 7 6
"目录" 6 6 6

标签编码器尝试

下面是我试图实现的代码,以及我收到的对象X的错误消息,它大致具有我上面描述的属性。

from sklearn.preprocessing import LabelEncoder
labelencoder_X =LabelEncoder 
X[:, 0] = LabelEncoder.fit_transform(X[:, 0])

TypeError: fit_transform() missing 1 required positional argument: 'y'

扔我的是我认为上面的代码清楚地定义了y是X的第一列。

OneHotEncoder

from sklearn.preprocessing import OneHotEncoder 
onehotencoder = OneHotEncoder(categorical_features=[0]) 
X = onehotencoder.fit_transform[X].toarray()

TypeError: 'method' object is not subscriptable

标签二进制文件

我发现这个最难理解,实际上无法根据数据集的结构进行尝试。

您可以提供的任何指导或建议都将无穷无尽。

1 个答案:

答案 0 :(得分:3)

让我们一步一步来。

首先加载您在名为X

的numpy数组中显示的数据
import numpy as np
X = np.array([["Fish", 1, 5, 3],
              ["Dog",  2, 6, 9],
              ["Dog",  8, 8, 8],
              ["Cat",  5, 7, 6],
              ["Cat",  6, 6, 6]])

现在试试你的代码。

1)LabelEncoder

from sklearn.preprocessing import LabelEncoder
labelencoder_X =LabelEncoder 
X[:, 0] = LabelEncoder.fit_transform(X[:, 0])

你在这里做的错误是你使用类LabelEncoder作为对象,在其上调用fit_transform。所以通过以下方式纠正:

from sklearn.preprocessing import LabelEncoder
labelencoder_X =LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

请参阅上面第2行和第3行中的更改。首先,我通过调用labelencoder_X创建LabelEncoder类的对象LabelEncoder(),然后使用该对象通过labelencoder_X.fit_transform()调用fit_transform()。然后这段代码不会给出任何错误,新的X是:

Output:
array([['2', '1', '5', '3'],
       ['1', '2', '6', '9'],
       ['1', '8', '8', '8'],
       ['0', '5', '7', '6'],
       ['0', '6', '6', '6']], dtype='|S4')

看到第一列已成功更改。

2)OneHotEncoder

您的代码:

from sklearn.preprocessing import OneHotEncoder 
onehotencoder = OneHotEncoder(categorical_features=[0]) 
X = onehotencoder.fit_transform[X].toarray()

现在,您没有在LabelEncoder中犯下错误。您正在通过调用OneHotEncoder(...)正确初始化对象。但是你使用fit_transform[X]犯了一个错误。您看到fit_transform是一种方法,应该使用圆括号来调用,如下所示:fit_transform()

有关错误的详细信息,请参阅this question

正确的代码应该是:

from sklearn.preprocessing import OneHotEncoder 
onehotencoder = OneHotEncoder(categorical_features=[0]) 
X = onehotencoder.fit_transform(X).toarray()

Output: 
array([[0., 0., 1., 1., 5., 3.],
       [0., 1., 0., 2., 6., 9.],
       [0., 1., 0., 8., 8., 8.],
       [1., 0., 0., 5., 7., 6.],
       [1., 0., 0., 6., 6., 6.]])

注意:应该在X上调用上面的代码,这些代码已经使用LabelEncoder进行了转换。如果你在原版X上使用它,它仍会抛出错误。

3)LabelBinarizer 这与LabelEncoder没有什么不同,只是它会对提供的列进行单热编码。

from sklearn.preprocessing import LabelBinarizer
labelencoder_X =LabelBinarizer()
new_binarized_val = labelencoder_X.fit_transform(X[:, 0])

Output:
array([[0, 0, 1],
       [0, 1, 0],
       [0, 1, 0],
       [1, 0, 0],
       [1, 0, 0]])

注意:我在问题的原始X上使用的LabelBinarizer代码,而不是已编码的代码。输出只显示第一列的二值化形式。

希望这能使事情变得清晰。