熊猫的日期时间重采样计数为非零

时间:2018-06-22 18:10:46

标签: python pandas datetime

我有一个每日降雨量的时间序列,如下所示:

                     PRCP
year_month_day           
1797-01-01 00:00:00   0.0
1797-01-02 00:00:00   0.0
1797-01-03 00:00:00   1.1
1797-01-04 00:00:00   0.0
1797-01-05 00:00:00   3.5
1797-02-01 00:00:00   8.1
1797-02-02 00:00:00   3.0
1797-02-03 00:00:00   0.0
1797-02-04 00:00:00   0.0
1797-02-05 00:00:00   0.0
1797-03-01 00:00:00   0.0
1797-03-02 00:00:00   0.0
1797-03-03 00:00:00   0.0
1797-03-04 00:00:00   0.0
1797-03-05 00:00:00   1.5
1797-04-01 00:00:00   6.3
1797-04-02 00:00:00  24.0
1797-04-03 00:00:00   0.0
1797-04-04 00:00:00   2.2
1797-04-05 00:00:00   5.9
1797-05-01 00:00:00   0.0
1797-05-02 00:00:00  15.9
1797-05-03 00:00:00   0.0
1797-05-04 00:00:00   0.0
1797-05-05 00:00:00   0.0
1797-06-01 00:00:00   1.6
1797-06-02 00:00:00   0.0
1797-06-03 00:00:00   0.0
1797-06-04 00:00:00   7.9
1797-06-05 00:00:00   0.0

我已经能够将其索引列作为pandas datetime对象导入。我正在尝试计算每个月的所有非零雨天。我可以按月分组:

grouped = df.groupby(pd.Grouper(freq='M'))

并且可以使用以下方法每月计算所有内容:

raindays = grouped.resample("M").count()

但这也算降雨0天。我发现了使用nunique()的提示,但似乎无法用于重采样。例如:

raindays = grouped.resample("M").nunique()

返回错误:

AttributeError: 'DataFrameGroupBy' object has no attribute 'nunique'

是否有一种方法可以对分组的熊猫对象中的非零值进行计数?

2 个答案:

答案 0 :(得分:3)

屏蔽那些0,然后重试。

df.mask(df.PRCP.eq(0)).groupby(pd.Grouper(freq='M')).count()

或者,更明显的版本是replace

df.replace({0 : np.nan}).groupby(pd.Grouper(freq='M')).count()

                PRCP
year_month_day      
1797-01-31         2
1797-02-28         2
1797-03-31         1
1797-04-30         4
1797-05-31         1
1797-06-30         2

答案 1 :(得分:2)

使用factorizebincount

f, u = pd.factorize(df.index + pd.offsets.MonthEnd(0))
pd.Series(np.bincount(f, df.PRCP.values != 0).astype(int), u)

1797-01-31    2
1797-02-28    2
1797-03-31    1
1797-04-30    4
1797-05-31    1
1797-06-30    2
dtype: float64