从并行区域中的大数据区域加载数据

时间:2019-03-05 17:21:08

标签: python parallel-processing dask python-xarray

我在dask数据框中加载了一个大型xarray数据集,其中包含了相当大的空间和时间范围内的数据。我想做的是通过将数据拆分成较小的块并并行加载,从而使用dask将数据加载到内存中。以下是我要执行的操作的示例代码:

import numpy as np
import xarray as xr

def chunk(ds,x_ends,y_ends):
    '''
    Function which takes a large dataset which has been lazily loaded and specified
    indices within the dataset, and cuts out the chunk and loads it into memory. 
    '''

    chunk = ds.isel(x=slice(x_ends[0],x_ends[1]),y=slice(y_vals[0],y_vals[1]))

    with ProgressBar():
        chunk = chunk.compute()
    return chunk

dval = np.random.randint(5,size=[10,100,100])
x = np.linspace(0,100,101,dtype=int)
y = np.linspace(0,100,101,dtype=int)
time = np.linspace(0,10,11,dtype=int)

data = xr.DataArray(dval,coords=[time,x,y],dims=['time','x','y'])

x_vals = np.arange(0,len(data.x),1000)
x_vals = np.append(x_vals,len(data.x))
y_vals = np.arange(0,len(data.y),1000)
y_vals = np.append(y_vals,len(data.y))

for i in range(len(x_vals)-1):
    for j in range(len(y_vals)-1):
        chunk(data,[x_vals[i],x_vals[i+1]],[y_vals[j],y_vals[j+1]])

这可以实现我想要的功能,但是显然不是并行执行的,并且对于double for循环来说效果也不佳。这将插入更大的函数,在该函数上数据将应用其他操作。我还意识到示例中的DataArray不是数组。

我以前曾尝试使用dask.distributed Client类,但这破坏了.compute()函数。我觉得可能有一个相对简单的答案,我只是在错误的地方寻找。

1 个答案:

答案 0 :(得分:0)

存在以下功能来制作Xarray的精巧分块版本:http://xarray.pydata.org/en/stable/generated/xarray.DataArray.chunk.html 那将完成您想要的玩具示例。然后,将对这些数据进行逐块操作,并且可能并行性很好。

但是,您通常更希望在加载时对数据进行分块,而不是拆分内存中已有的阵列。大多数xarray加载函数允许您指定chunks=,这将自动使内部数据模型变得模糊,并为您提供并行和/或内核外处理。 zarr格式对于这种操作特别友好,因为每个数据块都存储在不同的文件中,并且可以根据需要从远程存储系统无缝加载。