Question

我有一个文件夹，包含2006 - 2001年的NetCDF文件，十年块（2011-2020,2021-2030等）。

我想创建一个新的NetCDF文件，其中包含连接在一起的所有这些文件。到目前为止，我已阅读过文件：

ds = xarray.open_dataset('Path/to/file/20062010.nc')
ds1 = xarray.open_dataset('Path/to/file/20112020.nc')
etc.

然后合并这些：

dsmerged = xarray.merge([ds,ds1])

这很有效，但是很笨重，并且必须有一种更简单的方法来自动化这个过程，因为我将为许多不同文件夹的文件夹执行此操作。有没有更有效的方法来做到这一点？

编辑：

尝试使用glob：

连接这些文件

for filename in glob.glob('path/to/file/.*nc'):
    dsmerged = xarray.merge([filename])

给出错误：

AttributeError: 'str' object has no attribute 'items'

这只读取文件名的文本，而不是实际文件本身，因此无法合并它。如何打开，存储为变量，然后合并而不是一点一点地进行合并？

Answer 1

如果您正在寻找一种简洁的方法来将所有数据集合并在一起，您可以使用某种形式的 列表理解 和xarray.merge函数把它做完。以下是一个例子：

ds = xarray.merge([xarray.open_dataset(f) for f in glob.glob('path/to/file/.*nc')])

为了解决您遇到的内存不足问题，可能是因为您拥有的文件比python进程可以处理的文件多。最好的解决方法是使用xarray.open_mfdataset函数，该函数实际上使用库下的dask来将数据分成更小的块来处理。这通常更节省内存，并且通常允许您将数据带入python。使用此功能，您不需要for-loop;你可以以"path/to/my/files/*.nc"的形式传递一个字符串glob。以下内容相当于之前提供的解决方案，但内存效率更高：

ds = xarray.open_mfdataset('path/to/file/*.nc')

我希望这证明有用。

使用xarray加入/合并多个NetCDF文件

1 个答案: