使用python

时间:2019-02-21 12:00:50

标签: python pandas dataframe filtering

我有一个重复活动的数据集。我需要对它们进行过滤,以使我具有第一次发生的开始日期和最后一次发生的结束日期以及单个活动。

数据框:

https://i.stack.imgur.com/UC0SP.png

请参考提供的链接。 任何帮助将不胜感激。

谢谢

2 个答案:

答案 0 :(得分:0)

如有必要,首先将列转换为日期时间:

df[['Start','End']] = df[['Start','End']].apply(pd.to_datetime)

然后聚合first或 每组lastminmax

df1 = df.groupby('Activity', as_index=False).agg({'Start':'first', 'End':'last'})

df1 = df.groupby('Activity', as_index=False).agg({'Start':'min', 'End':'max'})

答案 1 :(得分:0)

我想您想尝试的是就那里的开始和结束时间来考虑“活动”的发生。 例如,如果您正在尝试俱乐部'a',那么您要尝试获得的第一个'a'的开始时间和最后一个'a'的结束时间。