如果我的数据集的功能之一是得分,该得分是分类字符串,例如:
Score
X1c
X3a
X1a
X2b
X4
X1a
X1b
X4
在X1a
最弱的地方,接着是X1b, X1c, X2a, X2b ...X4
最强的地方,X4
最强的地方,如何将其编码为整数,使得X1a
可以是最低的int且{ {1}}是最高的int。我正在寻找使用随机森林分类器。而且,训练集是一个单独的数据集,因此应该为新数据集保留此编码。
答案 0 :(得分:1)
您可以尝试使用等级:
df['Score_int'] = df.Score.rank(method='dense')
输出:
Score Score_int
0 X1c 3.0
1 X3a 5.0
2 X1a 1.0
3 X2b 4.0
4 X4 6.0
5 X1a 1.0
6 X1b 2.0
7 X4 6.0