Xarray获得数据集中每个月的小时平均值(是否没有手动循环?)

时间:2018-12-29 15:35:24

标签: python dask netcdf python-xarray

在xarray中,很容易获得每月平均值:

ds.groupby('time.month').mean(dim='time')

,按小时表示:

ds.groupby('time.hour').mean(dim='time')

但是我找不到一种有效的方法来获取每个月的小时平均值...您可以创建自己的索引来组合月份和小时,但是这非常慢(由于仅按小时分组,大约长12倍) da ...)

我想要这样的东西:

<xarray.Dataset>
Dimensions:    (hour: 24, latitude: 721, longitude: 1440, month: 12)
Coordinates:
  * longitude  (longitude) float32 0.0 0.25 0.5 0.75 ... 359.25 359.5    359.75
  * latitude   (latitude) float32 90.0 89.75 89.5 89.25 ... -89.5 -89.75 -90.0
  * month      (month) int64 1 2 3 4 5 6 7 8 9 10 11 12
  * hour       (hour) int64 0 1 2 3 4 5 6 7 8 9 ... 15 16 17 18 19 20 21 22 23

Data variables:
    value       (hour, month, latitude, longitude) float32 dask.array<shape=(24, 12, 721, 1440), chunksize=(1, 1, 721, 1440)>

这可能吗?

编辑:也许可以将值设置为2014年1月1日01:00、2014年2月1日02:00等每个月的第一天?

1 个答案:

答案 0 :(得分:2)

您可以将堆叠的MultiIndex分配为新坐标,然后按此坐标分组:

da.coords['monthhour'] = (
    ('time', ),
    pd.MultiIndex.from_arrays([da.time.dt.month, da.time.dt.hour])

da.groupby('monthhour').mean(dim='time')

然后可以取消堆叠的坐标(da.unstack('monthour'))。我还没有找到一种通过groupby(MultiIndex)操作保留暗淡名称的方法,但是它可以满足您的大部分需求。