应用错误收集

我有一些包含两列分类数据的数据。我正在使用sklearn库中的LabelEncoder编码数据。

数据看起来像这样

CATEGORY UNIT    PRICE
Gloves   Pair    50
Gloves   Pair    60
Gloves   pair    30
Gloves   pair    70

LabelEncoder类将所有这些UNIT视为不同（对，对），但是我需要将它们视为相同。我该怎么办？

当前我正在做的是

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
data[:, 1] = labelencoder.fit_transform(data[:, 1])
onehotencoder = OneHotEncoder(categorical_features = [1])
data = onehotencoder.fit_transform(data).toarray()

考虑到所有UNIT的不同，对它们进行编码。

我当时正在考虑将unit列转换为小写的or大写字母。还有其他合适的方法吗？

真实数据非常大。以上数据仅作为示例。

如何将LabelEncoder应用于大小写类别的数据？

0 个答案: