我不明白我是多么糟糕。编码非常新。
我试图通过sklearn上的LabelEncoder运行一个熊猫列,以将字符串更改为值。如果我没有通过LabelEncoder运行它,则该列会按原样打印出名称列表。当我使用LabelEncoder时,每个值实际上只是更改为'LabelEncoder'。我在做什么错了?
import pandas as pd
from sklearn import preprocessing
import numpy as np
data = pd.read_excel('Data.xlsx', sep=',')
import pandas as pd
le = preprocessing.LabelEncoder()
fit = le.fit(data.loc[:,'R_Name'])
data.loc[:,'R_Name'] = fit
print(data.loc[:,'R_Name'])
这是我的结果:
0 LabelEncoder()
1 LabelEncoder()
2 LabelEncoder()
3 LabelEncoder()
4 LabelEncoder()
5 LabelEncoder()
6 LabelEncoder()
7 LabelEncoder()
8 LabelEncoder()
9 LabelEncoder()
10 LabelEncoder()
11 LabelEncoder()
12 LabelEncoder()
13 LabelEncoder()
14 LabelEncoder()
15 LabelEncoder()
16 LabelEncoder()
17 LabelEncoder()
18 LabelEncoder()
19 LabelEncoder()
20 LabelEncoder()
21 LabelEncoder()
22 LabelEncoder()
23 LabelEncoder()
24 LabelEncoder()
25 LabelEncoder()
26 LabelEncoder()
27 LabelEncoder()
28 LabelEncoder()
答案 0 :(得分:-1)
我想您想要列的编码版本。 因此,您需要在安装的编码器上调用方法transform。 见下文
将熊猫作为pd导入 从sklearn导入预处理 将numpy导入为np
#data = pd.read_excel('Data.xlsx', sep=',')
data = pd.DataFrame({'R_Name':['Pippo','Pluto','Paperino','Pluto','Pippo'],'ID':[1,34,5,22,1]})
le = preprocessing.LabelEncoder()
fitted_le = le.fit(data.loc[:,'R_Name'])
data.loc[:,'R_Name'] = fitted_le.transform(data.loc[:,'R_Name'])
print(data.loc[:,'R_Name'])
输出为:
0 1
1 2
2 0
3 2
4 1
Name: R_Name, dtype: int32
请注意,我定义了一个玩具数据框,因为我不知道您的excel文件结构。我也将LabelEncoder对象重命名为fit_le:给变量赋予相同的方法名称不是一个好主意。 实际上,您的代码可以用更简洁的方式重写(我跳过了include和dataframe导入):
le = preprocessing.LabelEncoder()
data['R_Name'] = le.fit_transform(data['R_Name'])
print(data['R_Name'])
这是相关文档https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html
的链接