应用错误收集

像aggreagting一样，快速的pivot_table将分区减少到1，从而导致在旋转非常大的快速数据帧时出现内存错误。

如何在大型数据帧上完成此操作？有必要使用数组逐行编写自定义枢轴函数吗？

我读了一点，但是找不到用map_partitions旋转数据表的方法。

此示例代码显示生成的dask df只有一个分区。

df=pd.DataFrame([1,2,3,4,5],columns=['lng']);df['lat']=[4,5,6,7,8];df['altsuf']=[10.11,10.11,10.11,99.0,99.1]
h=dd.from_pandas(df,5)
h=h.categorize(columns=['lng','lat'],compute=False)
pivot = dd.pivot_table(h, index = 'lat', columns = 'lng', values = 'altsuf')
pivot

令人讨厌的数据透视表带有分区的内存不足

0 个答案: