我正在尝试比较存储在hdf5
文件中的两个大型数据集。但是,当使用dask.dataframe
时,它会忽略chunksize
选项,因为所有dd
个对象都有npartitions=1
。
a = dd.read_hdf(FLA, key='A')
b = dd.read_hdf(FLB, key='A')
生成一个对象
Dask DataFrame Structure:
year eiso3c iiso3c sitc3 value
npartitions=1
0 int64 object object object float64
13414277 ... ... ... ... ...
Dask Name: read-hdf, 1 tasks
因此,当我拨打(a == b).all().all().compute()
或assert_eq(a, b)
时,代码似乎会将a
和b
数据集全部加载到内存中。
这是从hdf5
读取时出现的问题,因为从csv
文件中读取产生dd
具有7个分区的对象的文件似乎有效吗?