使用Dask处理大型网格会导致MemoryError

时间:2019-07-06 23:42:43

标签: geospatial dask amazon-emr dask-distributed rasterio

我有三个GeoTIFF,在AWS的S3上每个大小约为500 MB,我正在尝试使用Dask在EMR集群上进行处理,但是在处理完第一个tiff之后却遇到了MemoryError。

使用xarray.open_rasterio()读取GeoTIFF之后,我将网格值转换为布尔值,然后将数组乘以浮点值。此工作流程已在三个大小为50 MB的GeoTIFF上成功执行。此外,我尝试在使用xarray读取数据时使用了分块,但是获得了相同的结果。

Dask是否有尺寸限制?或者我可能遇到其他可能的问题?

1 个答案:

答案 0 :(得分:0)

  

Dask是否有尺寸限制?或者我可能遇到其他可能的问题?

Dask本身不会人为地施加任何大小限制。这只是一个正常的Python过程。我建议考虑正常的Python或硬件问题。我的第一个猜测是您使用的是非常小的VM,但这只是一个猜测。祝你好运!