Question

我有一个包含许多列的数据框。其中一些是字符串，另一些是整数。我使用以下代码对数据帧进行了编码：

le = LabelEncoder()
for col in df.columns:
    df_encoded[col] = df.apply(le.fit_transform)

成功了！但是当我想用以下代码对其进行解码时：

for col in df.columns:
    df_decoded[col] = df_encoded.apply(le.inverse_transform)

我收到此错误：

ValueError: ('The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()', 'occurred at index MYCOLUMNNAME')

Answer 1

各列的数据类型不同，因此此处将apply与fit_transform一起使用将不起作用。它似乎可以正常运行，但是在操作结束时，LabelEncoder将适合最右边的列，因此，当您尝试应用inverse_transform时，LabelEncoder将替换其中的所有元素其他列及其在最右边一列中看到的列。例如：

df = pd.DataFrame([{'A': 1, 'B': 'p'}, {'A': 1, 'B': 'q'},  {'A': 2, 'B': 'o'},  {'A': 3, 'B': 'p'}])
df
   A  B
0  1  p
1  1  q
2  2  o
3  3  p

df = df.apply(le.fit_transform)
df
   A  B
0  0  1
1  0  2
2  1  0
3  2  1   # Looks fine

df.apply(le.inverse_transform)
   A  B
0  o  p
1  o  q
2  p  o
3  q  p   # Whoops

即使您逐列遍历并执行fit_transform和inverse_transform，也将看到相同的结果。

反转之前，您需要将编码器安装到正确的列上

le = LabelEncoder()
df_encoded = pd.DataFrame(columns=df.columns)
df_decoded = pd.DataFrame(columns=df.columns)

for col in df.columns:
    df_encoded[col] = le.fit_transform(df[col])

df_encoded
   A  B
0  0  1
1  0  2
2  1  0
3  2  1

for col in df.columns:
    le = le.fit(df[col])
    df_decoded[col] = le.inverse_transform(df_encoded[col])

df_decoded

   A  B
0  1  p
1  1  q
2  2  o
3  3  p   # Yeay

使用sklearn解码熊猫数据帧

1 个答案: