我有一个netcdf文件,其中包含5年(2011年至2015年)的每日数据。我想使用Python中的XArray计算数据的每月平均值。
netcdf file:////test/Combined.nc {
dimensions:
latitude = 681;
longitude = 841;
time = 1826;
variables:
double latitude(latitude=681);
:_FillValue = NaN; // double
:name = "latitude";
:long_name = "latitude";
:units = "degrees_north";
:standard_name = "latitude";
double longitude(longitude=841);
:_FillValue = NaN; // double
:name = "longitude";
:long_name = "longitude";
:units = "degrees_east";
:standard_name = "longitude";
long time(time=1826);
:name = "time";
:long_name = "time";
:standard_name = "time";
:units = "days since 2011-01-01 00:00:00";
:calendar = "proleptic_gregorian";
float PET(time=1826, latitude=681, longitude=841);
:_FillValue = -999.0f; // float
:name = "PET";
:long_name = "Potential evapotranspiration";
:units = "mm";
:standard_name = "PET";
:var_name = "PET";
}
我想做的是使用groupby来计算每月平均值:
import numpy as np
import xarray as xr
ds = xr.open_dataset("c:\\test\\Combined.nc")
ds_avg = ds.PET.groupby('time.month').mean(dim='time')
ds_avg.to_netcdf("C:\\test\\Combined_avg.nc")
但是上述代码的问题是,将文件合并为每月平均值(从2011年到2015年)。这意味着我在结果文件中有12个月的时间。那不是我想做的。我想计算2011年1月,2011年2月,2011年3月至2015年12月的月平均值,这样我就可以在结果文件中得到12 * 5个月。因此,这意味着groupby不应在“ time.month”上发生,而应在“ time.year:time.month”上发生。我该怎么办?
谢谢
答案 0 :(得分:1)
您应将resample
doc的使用频率设为一个月。然后:
ds_avg = ds.resample('1M').mean()
如果您对其他类似(简单)的操作感兴趣,请查看我们为ERA-NUTS dataset设置的笔记本。
使用另一个数据集的另一个示例:
<xarray.Dataset>
Dimensions: (bnds: 2, latitude: 61, longitude: 91, time: 218)
Coordinates:
* longitude (longitude) float32 -22.5 -21.75 -21.0 -20.25 ... 43.5 44.25 45.0
* latitude (latitude) float32 72.0 71.25 70.5 69.75 ... 28.5 27.75 27.0
* time (time) datetime64[ns] 2000-01-16T15:00:00 ... 2018-01-01T03:00:00
Dimensions without coordinates: bnds
Data variables:
time_bnds (time, bnds) datetime64[ns] ...
ssrdc (time, latitude, longitude) float64 ...
ssrd (time, latitude, longitude) float64 ...
然后应用重采样:
In [13]: d.resample(time = '1Y').mean()
Out[13]:
<xarray.Dataset>
Dimensions: (latitude: 61, longitude: 91, time: 19)
Coordinates:
* time (time) datetime64[ns] 2000-12-31 2001-12-31 ... 2018-12-31
* longitude (longitude) float32 -22.5 -21.75 -21.0 -20.25 ... 43.5 44.25 45.0
* latitude (latitude) float32 72.0 71.25 70.5 69.75 ... 28.5 27.75 27.0
Data variables:
ssrdc (time, latitude, longitude) float64 5.033e+05 ... 1.908e+05
ssrd (time, latitude, longitude) float64 4.229e+05 ... 1.909e+05