我在做什么:使用熊猫分析从调查中获取的数据集。我有几列是“是”或“否”的答案。 我想做什么和想问什么:将dtype obj更改为boolean是= True,否= False。 我也想知道是否有一种方法可以一次对几列进行此操作。
谢谢。
答案 0 :(得分:0)
这将适用于您的分类数据,您可以将其用于多列
根据您的编码,您将使用LableEncoder
对分类数据进行编码,编码为0,1,2 ...
数据,但它将产生一个新问题,而这里的问题是
在同一列中是不同的数字,模型会误解
数据按某种顺序排列,0 <1 <2。但这完全不是事实。
为了解决这个问题,我们使用One Hot Encoder。
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X_1 = LabelEncoder()
X[:,1] = labelencoder_X_1.fit_transform(X[:,1])
labelencoder_X_2 = LabelEncoder()
X[:,2] = labelencoder_X_2.fit_transform(X[:,2])
onehotencoder = OneHotEncoder(categorical_features = [1])
X = onehotencoder.fit_transform(X).toarray()