存储,编写和读取大气象数据数据集的更好方法

时间:2015-10-23 02:55:23

标签: mongodb hdf5 netcdf bigdata

我希望能更好地存储,写入和读取气象数据(原始文本格式约为30 GB)。

目前我使用NetCDF文件格式存储天气记录。在此NetCDF文件中,我有3个维度:timeclimate variableslocations。但维度顺序是我的任务的关键约束(见下文)。

第一项任务是每天更新大约3000个气象站的天气记录。维度顺序(time, var, name)提供了最佳的写入性能,因为新数据将添加到NetCDF文件的末尾。

第二项任务是读取工作站的所有每日天气记录以进行预先分析。尺寸顺序(name, var, time)提供最佳的阅读性能,因为一个网站的所有记录都存储在一起。

这两个任务具有NetCDF文件的冲突设计(在一个任务中表现最佳,但在另一个任务中表现最差)。

我的问题是,是否有其他方法/软件/数据格式来存储,编写和读取我的数据集以提供我的两个任务的最佳性能?由于我每天必须重复这两个步骤并且数据分析非常耗时,因此我需要找到最小化I / O的最佳方法。

感谢您的任何建议。如果我的问题不明确,请告诉我。

1 个答案:

答案 0 :(得分:2)

好的,你需要的是分块。我创建了一个小的python脚本进行测试,没有分块它基本上证实了你的观察,在一个维度上访问速度很慢。我测试了站号3000,每站10的变量和时间步长10000.我确实将站点和变量放在同一维度进行测试,但是如果你真的需要它,它应该在3D情况下得到类似的结果。 我的测试输出没有分块:

File chunking type: None Variable shape: (30000, 10000) Total time, file creation: 13.665503025054932 Average time for adding one measurement time: 0.00136328568459 0.00148195505142 0.0018851685524 Read all timeseries one by one with single file open Average read time per station/variable: 0.524109539986

还有分块:

File chunking type: [100, 100] Variable shape: (30000, 10000) Total time, file creation: 18.610711812973022 Average time for adding one measurement time: 0.00185681316853 0.00168470859528 0.00213300466537 Read all timeseries one by one with single file open Average read time per station/variable: 0.000948731899261

您可以看到,分块会将写入时间增加约50%,但会大大缩短读取时间。我没有尝试优化块大小,只是测试它在正确的方向上工作。 随意询问代码是否不清楚或您不熟悉python。

# -*- coding: utf-8 -*-
from time import time
import numpy as np
from netCDF4 import Dataset

test_dataset_name='test_dataset.nc4'
num_stations=3000 
num_vars=10 
chunks=None
#chunks=[100,100]

def create_dataset():
    ff=Dataset(test_dataset_name,'w')
    ff.createDimension('Time',None)
    ff.createDimension('Station_variable',num_stations*num_vars)
    if chunks:
        var1=ff.createVariable('TimeSeries','f8',   ('Station_variable','Time'),chunksizes=chunks)
    else:
        var1=ff.createVariable('TimeSeries','f8',('Station_variable','Time'))
    return ff

def add_data(ff,timedim):
    var1=ff.variables['TimeSeries']
    var1[0:1000,timedim]=timedim*np.ones((1000),'f8')

def dataset_close(inds):
    inds.close()

## CREATE DATA FILE    
time_start=time()
time1=[]
time2=[]
time3=[]
time4=[]
testds=create_dataset()
dataset_close(testds)
for i in range(10000):
    time1.append(time())
    ff=Dataset(test_dataset_name,'a')
    time2.append(time())
    add_data(ff,i)
    time3.append(time())
    ff.sync()
    ff.close()
    time4.append(time())
time_end=time()

time1=np.array(time1)
time2=np.array(time2)
time3=np.array(time3)
time4=np.array(time4)

## READ ALL STAION-VARIABLE COMBINATIONS AS ONE TIMESERIES
ff=Dataset(test_dataset_name,'r')
## PRINT DATA FILE CREATION SUMMARY
print("File chunking type:",chunks)
print("Variable shape:",ff.variables['TimeSeries'][:].shape)
print("Total time, file creation:", time_end-time_start)
print("Average time for adding one measurement time: ",np.mean(time4-    time1), np.mean(time4[:100]-time1[:100]),np.mean(time4[-100:]- time1[-100:]))
print("Read all timeseries one by one with single file open")
time_rstart=[]
time_rend=[]
for i in range(0,ff.variables['TimeSeries'][:].shape[0],int(ff.variables['TimeSeries'][:].shape[0]/100)):
    time_rstart.append(time())
    dataline=ff.variables['TimeSeries'][i,:]
    time_rend.append(time())
time_rstart=np.array(time_rstart)
time_rend=np.array(time_rend)
print("Average read time per station/variable: ",np.mean(time_rend-  time_rstart))