我有一些包含两列分类数据的数据。我正在使用sklearn库中的LabelEncoder编码数据。
数据看起来像这样
CATEGORY UNIT PRICE
Gloves Pair 50
Gloves Pair 60
Gloves pair 30
Gloves pair 70
LabelEncoder类将所有这些UNIT
视为不同(对,对),但是我需要将它们视为相同。我该怎么办?
当前我正在做的是
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
data[:, 1] = labelencoder.fit_transform(data[:, 1])
onehotencoder = OneHotEncoder(categorical_features = [1])
data = onehotencoder.fit_transform(data).toarray()
考虑到所有UNIT
的不同,对它们进行编码。
我当时正在考虑将unit
列转换为小写的or
大写字母。还有其他合适的方法吗?
真实数据非常大。以上数据仅作为示例。