我有两个DASK系列,其中一个是通过.groupby()方法获得的:
data1 = dd.from_pandas(data11, npartitions = 55)# first series
data2 = dd.from_pandas(data22, npartitions = 55).groupby(['t']).par1.sum() # second
之后,我想找出data1和data2之间的区别:
(data1-data2).abs().sum()
但是我得到了错误:
并非所有分区都已知,无法对齐分区。请用
set_index
设置索引。
我阅读了StackOverFlow上有关此问题的所有文章,但没有找到一个答案。我尝试使用.repartition(...)方法,但无济于事。
很高兴您的帮助