如何将LabelEncoder应用于大小写类别的数据?

时间:2019-04-24 17:35:15

标签: pandas machine-learning scikit-learn

我有一些包含两列分类数据的数据。我正在使用sklearn库中的LabelEncoder编码数据。

数据看起来像这样

CATEGORY UNIT    PRICE
Gloves   Pair    50
Gloves   Pair    60
Gloves   pair    30
Gloves   pair    70

LabelEncoder类将所有这些UNIT视为不同(对,对),但是我需要将它们视为相同。我该怎么办?

当前我正在做的是

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
data[:, 1] = labelencoder.fit_transform(data[:, 1])
onehotencoder = OneHotEncoder(categorical_features = [1])
data = onehotencoder.fit_transform(data).toarray()

考虑到所有UNIT的不同,对它们进行编码。

我当时正在考虑将unit列转换为小写的or大写字母。还有其他合适的方法吗?

真实数据非常大。以上数据仅作为示例。

0 个答案:

没有答案