Python-根据另一个变量重命名重复值

时间:2018-06-13 04:04:53

标签: python pandas duplicates renaming

是否有基于另一个变量重命名值?在这里,我有两列,其中一列是ID,另一列是水果。但是,我认为可以根据ID

唯一地识别它们
ID  Fruits
1    Apple
1   Banana
1   Orange
1   Banana
2    Apple
2   Orange
2   Orange
3    Apple
3    Apple
3   Orange

希望实现类似的目标

ID  Fruits
1    Apple
1   Banana
1   Orange
1  Banana1
2    Apple
2   Orange
2  Orange1
3    Apple
3   Apple1
3   Orange

1 个答案:

答案 0 :(得分:2)

<强> 设置

df = pd.DataFrame({
    'id': [1,1,1,1,2,2,2,3,3,3],
    'fruit': ['Apple', 'Banana', 'Orange', 'Banana', 'Apple', 'Orange', 'Orange', 'Apple', 'Apple', 'Orange']
})

选项1
cumcount replace 和字符串连接(我使用只匹配单个零的正则表达式模式,因此此答案也可以支持超过 每组9个重复):

df['fruit'] = df.fruit + df.groupby(
    ['id', 'fruit']).cumcount().astype(str).replace(
    r'^0$', '', regex=True
)

选项2
存储groupby并使用布尔索引与 fillna (我个人更喜欢这种方法)

s = df.groupby(['id', 'fruit']).cumcount()
df['fruit'] = (df.fruit + s[s>0].astype(str)).fillna(df.fruit)

两者都导致:

   id    fruit
0   1    Apple
1   1   Banana
2   1   Orange
3   1  Banana1
4   2    Apple
5   2   Orange
6   2  Orange1
7   3    Apple
8   3   Apple1
9   3   Orange