我创建了专栏' dif_pause'基于减去" pause_end'和' pause_start'列值并使用groupby()函数进行均值聚合,如下所示:
pauses['dif_pause'] = pauses['pause_end'] - pauses['pause_start']
pauses['dif_pause'].astype(dt.timedelta).map(lambda x: np.nan if pd.isnull(x) else x.days)
pauses_df=pauses.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")
我想在groupby部分中包含检查pause_end> pause_start(SQL中的某些WHERE子句等)。怎么能这样做?
感谢。
答案 0 :(得分:6)
您首先需要query
或boolean indexing
进行过滤:
pauses.query("pause_end > pause_start")
.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")
pauses[pauses["pause_end"] > pauses["pause_start"]]
.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")