来自xarray的大型HDF5数据集上的dask.dataframe.DataFrame.max占用大量内存吗?

时间:2018-10-08 13:37:50

标签: dask

我正在尝试学习DataFrame的用法,我遇到两个问题:

  1. 无法直接使用dask.dataframe.read_hdf读取数据集,而获得ValueError:No object to concatenate。但是可以通过
  2. 加载相同的HDF5文件
  

ds = xarray.open_dataset(fn,chunks = 10000)

,然后通过

转换为DataFrame
  

dd = ds.to_dask_dataframe()

结果:一个数据框 npartitions = 10296 任务名称:concat-indexed,483931个任务

  1. 无法执行da.max().compute(),几乎所有64GB内存都被占用,即使使用da.compute(scheduler='synchronous')

我想知道问题是什么,它将自动减少所有结果还是将多个max结果保存在内存中?

0 个答案:

没有答案