Question

我正在尝试在数据集中生成唯一索引列。

我的数据集中有一个列，如下所示： 665678、665678、665678、665682、665682、665682、665690、665690

我想生成一个单独的索引列，如下所示： 1，1，1，2，2，2，3，3

我遇到了帖子How to index columns uniquely?吗？准确地描述了我要做什么。但是，由于针对R描述了解决方案，因此我想知道如何使用Pandas在Python中实现相同的解决方案。

谢谢

Answer 1

使用-

df.groupby('col').ngroup()+1

输出

0    1
1    1
2    1
3    2
4    2
5    2
6    3
7    3
dtype: int64