应用groupby后如何在数据框中添加列

时间:2018-09-08 09:54:38

标签: python pandas

我有这样的数据框

    id             Date
    546451991   2018-07-31 00:00:00
    546451991   2018-08-02 00:00:00
    5441440119  2018-08-13 00:00:00
    5441440119  2018-08-13 00:00:00
    5441440119  2018-08-14 00:00:00
    5344265358  2018-07-13 00:00:00
    5344265358  2018-07-15 00:00:00
    5441438884  2018-07-19 00:00:00

我要按“ ID”分组,然后根据日期排序,然后添加包含下一个ROW日期的列

例如,我想要这样的输出

 id             Date              Date1
546451991   2018-07-31 00:00:00  2018-08-02 00:00:00
546451991   2018-08-02 00:00:00  NULL
5441440119  2018-08-13 00:00:00  2018-08-14 00:00:00
5441440119  2018-08-14 00:00:00  2018-08-15 00:00:00
5441440119  2018-08-15 00:00:00  NULL
5344265358  2018-07-13 00:00:00  2018-07-15 00:00:00
5344265358  2018-07-15 00:00:00  NULL
5441438884  2018-07-19 00:00:00  NULL

我尝试过但没有成功  df.groupby('id')['Date'].sort_values()无法正常工作

2 个答案:

答案 0 :(得分:2)

df['Date1'] = df.groupby('id')['Date'].apply(lambda x: x.sort_values().shift(-1))

出局:

            Date           id          Date1
0   2018-07-3100:00:00  546451991   2018-08-0200:00:00
1   2018-08-0200:00:00  546451991   NaN
2   2018-08-1300:00:00  5441440119  2018-08-1300:00:00
3   2018-08-1300:00:00  5441440119  2018-08-1400:00:00
4   2018-08-1400:00:00  5441440119  NaN
5   2018-07-1300:00:00  5344265358  2018-07-1500:00:00
6   2018-07-1500:00:00  5344265358  NaN
7   2018-07-1900:00:00  5441438884  NaN

修改

来自sandeep输入

df['Date1'] = df.groupby('id')['Date'].shift(-1)

答案 1 :(得分:0)

这可能是您正在寻找的东西,虽然@Naga Kiran的答案在一线之间做到了,但我只是一步一步地简化了事情。

import pandas as pd
df = pd.DataFrame({"id":[1, 2, 3, 4], "Date":["2018-07-01", "2018-08-01", "2018-09-02", "2018-10-03"]})
newdf = df.sort_values(["Date"], ascending=False)
newdf["Date1"] = newdf["Date"].transform(lambda x:x.shift(-1))
newdf.groupby("id").head(3)

我首先对数据框进行排序,然后在Date1上添加shift(-1),将列值向上移动一行,然后进行groupby("id")

希望这会有所帮助。