Question

拥有这样的数据框：

我创建了专栏＆＃39; dif_pause＆＃39;基于减去＆quot; pause_end＆＃39;和＆＃39; pause_start＆＃39;列值并使用groupby（）函数进行均值聚合，如下所示：

pauses['dif_pause'] = pauses['pause_end'] - pauses['pause_start']
pauses['dif_pause'].astype(dt.timedelta).map(lambda x: np.nan if pd.isnull(x) else x.days)

pauses_df=pauses.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")

我想在groupby部分中包含检查pause_end＆gt; pause_start（SQL中的某些WHERE子句等）。怎么能这样做？

感谢。

Answer 1

您首先需要query或boolean indexing进行过滤：

pauses.query("pause_end > pause_start")
       .groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")

pauses[pauses["pause_end"] > pauses["pause_start"]]
      .groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")

按照熊猫的Where条件进行分组

1 个答案: