我正在尝试学习DataFrame
的用法,我遇到两个问题:
dask.dataframe.read_hdf
读取数据集,而获得ValueError:No object to concatenate
。但是可以通过ds = xarray.open_dataset(fn,chunks = 10000)
,然后通过
转换为DataFrame
dd = ds.to_dask_dataframe()
结果:一个数据框 npartitions = 10296 任务名称:concat-indexed,483931个任务
da.max().compute()
,几乎所有64GB内存都被占用,即使使用da.compute(scheduler='synchronous')
。我想知道问题是什么,它将自动减少所有结果还是将多个max
结果保存在内存中?