像aggreagting一样,快速的pivot_table将分区减少到1,从而导致在旋转非常大的快速数据帧时出现内存错误。
如何在大型数据帧上完成此操作?有必要使用数组逐行编写自定义枢轴函数吗?
我读了一点,但是找不到用map_partitions旋转数据表的方法。
此示例代码显示生成的dask df只有一个分区。
df=pd.DataFrame([1,2,3,4,5],columns=['lng']);df['lat']=[4,5,6,7,8];df['altsuf']=[10.11,10.11,10.11,99.0,99.1]
h=dd.from_pandas(df,5)
h=h.categorize(columns=['lng','lat'],compute=False)
pivot = dd.pivot_table(h, index = 'lat', columns = 'lng', values = 'altsuf')
pivot