Question

如果我的数据集的功能之一是得分，该得分是分类字符串，例如：

Score
X1c
X3a
X1a
X2b
X4
X1a
X1b
X4

在X1a最弱的地方，接着是X1b, X1c, X2a, X2b ...X4最强的地方，X4最强的地方，如何将其编码为整数，使得X1a可以是最低的int且{ {1}}是最高的int。我正在寻找使用随机森林分类器。而且，训练集是一个单独的数据集，因此应该为新数据集保留此编码。

Answer 1

您可以尝试使用等级：

df['Score_int'] = df.Score.rank(method='dense')

输出：

  Score  Score_int
0   X1c        3.0
1   X3a        5.0
2   X1a        1.0
3   X2b        4.0
4    X4        6.0
5   X1a        1.0
6   X1b        2.0
7    X4        6.0

如何按严重性顺序排序分类字符串功能？

1 个答案: