令人讨厌的数据透视表带有分区的内存不足

时间:2019-04-30 10:34:56

标签: pivot-table dask dask-distributed

像aggreagting一样,快速的pivot_table将分区减少到1,从而导致在旋转非常大的快速数据帧时出现内存错误。

如何在大型数据帧上完成此操作?有必要使用数组逐行编写自定义枢轴函数吗?

我读了一点,但是找不到用map_partitions旋转数据表的方法。

此示例代码显示生成的dask df只有一个分区。

df=pd.DataFrame([1,2,3,4,5],columns=['lng']);df['lat']=[4,5,6,7,8];df['altsuf']=[10.11,10.11,10.11,99.0,99.1]
h=dd.from_pandas(df,5)
h=h.categorize(columns=['lng','lat'],compute=False)
pivot = dd.pivot_table(h, index = 'lat', columns = 'lng', values = 'altsuf')
pivot

0 个答案:

没有答案