我有特定年份每一天来自ERA5的每小时数据。我想将数据从每小时转换为每天。我知道这样做的路途艰辛,但我需要可以轻松做到的事情。
Copernicus在https://confluence.ecmwf.int/display/CKB/ERA5%3A+How+to+calculate+daily+total+precipitation处有此代码,如果数据集仅转换一天,但是在整年转换时,我会遇到问题。
链接以下载ERA5数据集,该数据集可在https://cds.climate.copernicus.eu/cdsapp#!/home
获得https://confluence.ecmwf.int/display/CKB/How+to+download+ERA5
该脚本仅下载两天(2017年1月1日和2日)的原始数据:#!/usr/bin/env python
"""
Save as get-tp.py, then run "python get-tp.py".
Input file : None
Output file: tp_20170101-20170102.nc
"""
import cdsapi
c = cdsapi.Client()
r = c.retrieve(
'reanalysis-era5-single-levels', {
'variable' : 'total_precipitation',
'product_type': 'reanalysis',
'year' : '2017',
'month' : '01',
'day' : ['01', '02'],
'time' : [
'00:00','01:00','02:00',
'03:00','04:00','05:00',
'06:00','07:00','08:00',
'09:00','10:00','11:00',
'12:00','13:00','14:00',
'15:00','16:00','17:00',
'18:00','19:00','20:00',
'21:00','22:00','23:00'
],
'format' : 'netcdf'
})
r.download('tp_20170101-20170102.nc')
## Add multiple days and multiple months to donload more data
下面的脚本将仅创建一天的netCDF文件
#!/usr/bin/env python
"""
Save as file calculate-daily-tp.py and run "python calculate-daily-tp.py".
Input file : tp_20170101-20170102.nc
Output file: daily-tp_20170101.nc
"""
import time, sys
from datetime import datetime, timedelta
from netCDF4 import Dataset, date2num, num2date
import numpy as np
day = 20170101
d = datetime.strptime(str(day), '%Y%m%d')
f_in = 'tp_%d-%s.nc' % (day, (d + timedelta(days = 1)).strftime('%Y%m%d'))
f_out = 'daily-tp_%d.nc' % day
time_needed = []
for i in range(1, 25):
time_needed.append(d + timedelta(hours = i))
with Dataset(f_in) as ds_src:
var_time = ds_src.variables['time']
time_avail = num2date(var_time[:], var_time.units,
calendar = var_time.calendar)
indices = []
for tm in time_needed:
a = np.where(time_avail == tm)[0]
if len(a) == 0:
sys.stderr.write('Error: precipitation data is missing/incomplete - %s!\n'
% tm.strftime('%Y%m%d %H:%M:%S'))
sys.exit(200)
else:
print('Found %s' % tm.strftime('%Y%m%d %H:%M:%S'))
indices.append(a[0])
var_tp = ds_src.variables['tp']
tp_values_set = False
for idx in indices:
if not tp_values_set:
data = var_tp[idx, :, :]
tp_values_set = True
else:
data += var_tp[idx, :, :]
with Dataset(f_out, mode = 'w', format = 'NETCDF3_64BIT_OFFSET') as ds_dest:
# Dimensions
for name in ['latitude', 'longitude']:
dim_src = ds_src.dimensions[name]
ds_dest.createDimension(name, dim_src.size)
var_src = ds_src.variables[name]
var_dest = ds_dest.createVariable(name, var_src.datatype, (name,))
var_dest[:] = var_src[:]
var_dest.setncattr('units', var_src.units)
var_dest.setncattr('long_name', var_src.long_name)
ds_dest.createDimension('time', None)
var = ds_dest.createVariable('time', np.int32, ('time',))
time_units = 'hours since 1900-01-01 00:00:00'
time_cal = 'gregorian'
var[:] = date2num([d], units = time_units, calendar = time_cal)
var.setncattr('units', time_units)
var.setncattr('long_name', 'time')
var.setncattr('calendar', time_cal)
# Variables
var = ds_dest.createVariable(var_tp.name, np.double, var_tp.dimensions)
var[0, :, :] = data
var.setncattr('units', var_tp.units)
var.setncattr('long_name', var_tp.long_name)
# Attributes
ds_dest.setncattr('Conventions', 'CF-1.6')
ds_dest.setncattr('history', '%s %s'
% (datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
' '.join(time.tzname)))
print('Done! Daily total precipitation saved in %s' % f_out)
结果应为全年的计算变量(例如降水等)的每日值。
示例:假设我每天有1mm / hr的全年降水量数据,那么全年会有2928个值。
我想要的是全年24mm /天,非ap年仅365个值。
示例输入数据集:数据子集可从此处下载(2017年1月1日至2日)https://www.dropbox.com/sh/0vdfn20p355st3i/AABKYO4do_raGHC34VnsXGPqa?dl=0。在此之后,只需使用第二个脚本来检查代码即可。 {全年的密码为> 10 GB ,因此无法上传
预先感谢
答案 0 :(得分:0)
xarray resample只是适合您的工具。它将netCDF数据在一行中从一种时间分辨率(例如,每小时)转换为另一种(例如,每天)。使用您的样本数据文件,我们可以使用以下代码创建每日均值:
import xarray as xr
ds = xr.open_dataset('./tp_20170101-20170102.nc')
tp = ds['tp'] # dimensions [time: 48, latitude: 721, longitude: 1440]
tp_daily = tp.resample(time='D').mean(dim='time') # dimensions (time: 2, latitude: 721, longitude: 1440)
您将看到resample
命令采用了时间代码,在本例中为'D'
,它表示每天,然后我们指定要使用每小时数据计算每天的平均值与.mean(dim='time')
的那天。
例如,如果您想计算每日最大值而不是每日平均值,则可以将.mean(dim='time')
替换为.max(dim='time')
。您还可以从每小时到每月(MS
或每月开始),每年(AS
或每年开始)等等。时间频率代码可以在Pandas docs中找到。
答案 1 :(得分:0)
从命令行使用CDO的另一种快速方法是:
cdo daysum -shifttime,-1hour era5_hourly.nc era5_daily.nc
请注意,按照此处的此答案/讨论:Calculating ERA5 Daily Total Precipitation using CDO ERA5每小时数据在每小时窗口的末尾具有时间步长,因此您需要在计算总和之前先更改时间戳,但我不确定xarray解决方案是否能够解决这一问题。另外,要有毫米/天,我认为需要求和,而不是取平均值。