获得多年数据中SON,DJF,MAM变量的95%

时间:2019-03-01 04:57:36

标签: python pandas numpy python-xarray

我有45年的数据名为ds,格式为netCDF(.nc)。它包含三个坐标:timelatitudelongitude

print(ds)

<xarray.Dataset>
Dimensions:    (latitude: 106, longitude: 193, time: 403248)
Coordinates:
  * latitude   (latitude) float32 -39.2 -39.149525 ... -33.950478 -33.9
  * longitude  (longitude) float32 140.8 140.84792 140.89584 ... 149.95209 150.0
  * time       (time) datetime64[ns] 1972-01-01 ... 2017-12-31T23:00:00
Data variables:
    FFDI       (time, latitude, longitude) float32 dask.array<shape=(403248, 106, 193), chunksize=(744, 106, 193)>
Attributes:
    creationTime:        1525925611
    creationTimeString:  Wed May  9 21:13:31 PDT 2018
    Conventions:         COARDS

我需要按季节计算FFDI的95%,即SON(9月,10月,11月),DJF(12月,1月,2月),MAM(3月,4月,5月),JJA(6月,7月,8月)

da_ffdi_95th = ds['FFDI'].reduce(np.percentile, dim='time', q=95)

这创建了一个带有百分位数变量的新DataArray对象,但时间维度已删除。

groupby如何与np.percentile函数一起使用?

1 个答案:

答案 0 :(得分:1)

信不信由你,我认为您已成定局!有关更多详细信息,请参见DataArrayGroupBy.reduce

da_ffdi_95th = ds['FFDI'].groupby('time.season').reduce(
    np.percentile, dim='time', q=95)

但是,由于我们使用的是NumPy函数,因此数据将被急切地加载。为了使此dask兼容,我们传递给reduce的函数必须能够在NumPy或dask数组上运行。虽然dask实现了执行此功能的功能dask.array.percentile,但它仅适用于一维数组和is not a perfect match to the NumPy function

幸运的是,使用dask.array.map_blocks,编写我们自己的代码很容易。这使用percentile的NumPy实现,并将其应用于dask数组的每个块;唯一需要注意的是,确保将要应用其的数组沿我们要计算百分位数的维划分成块。

import dask.array as dask_array

def dask_percentile(arr, axis=0, q=95):
    if len(arr.chunks[axis]) > 1:
        msg = ('Input array cannot be chunked along the percentile '
               'dimension.')
        raise ValueError(msg)
    return dask_array.map_blocks(np.percentile, arr, axis=axis, q=q,
                                 drop_axis=axis)

然后,我们可以编写一个包装函数,根据输入数组的类型(NumPy或dask)调用适当的percentile实现:

def percentile(arr, axis=0, q=95):
    if isinstance(arr, dask_array.Array):
        return dask_percentile(arr, axis=axis, q=q)
    else:
        return np.percentile(arr, axis=axis, q=q)

现在,如果我们调用reduce,并确保添加allow_lazy=True参数,则此操作将返回一个dask数组(如果基础数据存储在dask数组中并进行了适当的分块):

da_ffdi_95th = ds['FFDI'].groupby('time.season').reduce(
    percentile, dim='time', q=95, allow_lazy=True)