从HDF文件中分区Dask DataFrames行为

时间:2017-11-06 02:36:46

标签: python dataframe dask

我正在尝试比较存储在hdf5文件中的两个大型数据集。但是,当使用dask.dataframe时,它会忽略chunksize选项,因为所有dd个对象都有npartitions=1

a = dd.read_hdf(FLA, key='A')
b = dd.read_hdf(FLB, key='A')

生成一个对象

Dask DataFrame Structure:
year    eiso3c  iiso3c  sitc3   value
npartitions=1                   
0   int64   object  object  object  float64
13414277    ... ... ... ... ...
Dask Name: read-hdf, 1 tasks

因此,当我拨打(a == b).all().all().compute()assert_eq(a, b)时,代码似乎会将ab数据集全部加载到内存中。

这是从hdf5读取时出现的问题,因为从csv文件中读取产生dd具有7个分区的对象的文件似乎有效吗?

0 个答案:

没有答案