LabelEncoder将列中的每个值更改为'LabelEncoder()'

时间:2019-05-12 14:54:17

标签: python pandas scikit-learn

我不明白我是多么糟糕。编码非常新。

我试图通过sklearn上的LabelEncoder运行一个熊猫列,以将字符串更改为值。如果我没有通过LabelEncoder运行它,则该列会按原样打印出名称列表。当我使用LabelEncoder时,每个值实际上只是更改为'LabelEncoder'。我在做什么错了?


import pandas as pd
from sklearn import preprocessing
import numpy as np
data = pd.read_excel('Data.xlsx', sep=',')
import pandas as pd


le = preprocessing.LabelEncoder()
fit = le.fit(data.loc[:,'R_Name'])
data.loc[:,'R_Name'] = fit
print(data.loc[:,'R_Name'])

这是我的结果:


0       LabelEncoder()
1       LabelEncoder()
2       LabelEncoder()
3       LabelEncoder()
4       LabelEncoder()
5       LabelEncoder()
6       LabelEncoder()
7       LabelEncoder()
8       LabelEncoder()
9       LabelEncoder()
10      LabelEncoder()
11      LabelEncoder()
12      LabelEncoder()
13      LabelEncoder()
14      LabelEncoder()
15      LabelEncoder()
16      LabelEncoder()
17      LabelEncoder()
18      LabelEncoder()
19      LabelEncoder()
20      LabelEncoder()
21      LabelEncoder()
22      LabelEncoder()
23      LabelEncoder()
24      LabelEncoder()
25      LabelEncoder()
26      LabelEncoder()
27      LabelEncoder()
28      LabelEncoder()

1 个答案:

答案 0 :(得分:-1)

我想您想要列的编码版本。 因此,您需要在安装的编码器上调用方法transform。 见下文

将熊猫作为pd导入 从sklearn导入预处理 将numpy导入为np

#data = pd.read_excel('Data.xlsx', sep=',')
data = pd.DataFrame({'R_Name':['Pippo','Pluto','Paperino','Pluto','Pippo'],'ID':[1,34,5,22,1]})

le = preprocessing.LabelEncoder()
fitted_le = le.fit(data.loc[:,'R_Name'])
data.loc[:,'R_Name'] = fitted_le.transform(data.loc[:,'R_Name'])
print(data.loc[:,'R_Name'])

输出为:

0    1
1    2
2    0
3    2
4    1
Name: R_Name, dtype: int32

请注意,我定义了一个玩具数据框,因为我不知道您的excel文件结构。我也将LabelEncoder对象重命名为fit_le:给变量赋予相同的方法名称不是一个好主意。 实际上,您的代码可以用更简洁的方式重写(我跳过了include和dataframe导入):

le = preprocessing.LabelEncoder()
data['R_Name'] = le.fit_transform(data['R_Name'])
print(data['R_Name'])

这是相关文档https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

的链接