在Python中使用groupby计算平均差异

时间:2018-07-07 16:01:15

标签: python pandas datetime pandas-groupby timedelta

我是Python的新手,我想在第一列中汇总(分组依据)ID。 第二列中的值是时间戳记(日期时间格式),并且通过汇总ID,我希望在汇总的ID列中获得每个ID的时间戳记(以天为单位)之间的平均差。我的桌子看起来像df1,我想要的东西是df2,但是由于我是一个绝对的初学者,所以我不知道该怎么做。

import pandas as pd
import numpy as np
from datetime import datetime

In[1]:
# df1
ID = np.array([1,1,1,2,2,3])
Timestamp = np.array([
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-08 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-03-15 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-02-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S")])
df = pd.DataFrame({'ID': ID, 'Timestamp': Timestamp})

Out[1]:   
    ID  Timestamp
0   1   2018-01-01 18:07:02
1   1   2018-01-08 18:07:02
2   1   2018-03-15 18:07:02
3   2   2018-01-01 18:07:02
4   2   2018-02-01 18:07:02
5   3   2018-01-01 18:07:02

In[2]:
#df2
ID = np.array([1,2,3])
    Avg_Difference = np.array([7, 1, "nan"])
    df2 = pd.DataFrame({'ID': ID, 'Avg_Difference': Avg_Difference})

Out[2]:
ID  Avg_Difference
   0    1   7 
   1    2   1 
   2    3   nan

1 个答案:

答案 0 :(得分:1)

您可以执行以下操作:

df.groupby('ID')['Timestamp'].apply(lambda x: x.diff().mean())

就您而言,它看起来像:

>>> df
   ID           Timestamp
0   1 2018-01-01 18:07:02
1   1 2018-01-08 18:07:02
2   1 2018-03-15 18:07:02
3   2 2018-01-01 18:07:02
4   2 2018-02-01 18:07:02
5   3 2018-01-01 18:07:02

>>> df.groupby('ID')['Timestamp'].apply(lambda x: x.diff().mean())
ID
1   36 days 12:00:00
2   31 days 00:00:00
3                NaT
Name: Timestamp, dtype: timedelta64[ns]

如果您希望将其作为数据框使用名为Avg_Difference的列,只需在末尾添加to_frame

df.groupby('ID')['Timestamp'].apply(lambda x: x.diff().mean()).to_frame('Avg_Difference')

     Avg_Difference
ID                 
1  36 days 12:00:00
2  31 days 00:00:00
3               NaT

编辑根据您的评论,如果要删除时间元素,并且只获取天数,则可以执行以下操作:

df.groupby('ID')['Timestamp'].apply(lambda x: x.diff().mean()).dt.days.to_frame('Avg_Difference')

    Avg_Difference
ID                
1             36.0
2             31.0
3              NaN