我正在尝试将熊猫代码迁移到dask以支持大数据。我的python程序的数据通常适合内存。因此,熊猫对它有好处。但是很少有数据超出系统内存要求。我的python程序包含很多groupby。因此,我在包含16 GB RAM和4核的PC上比较了熊猫的groupby速度与dask的groupby性能。
对于包含3000万行的文件,其后继代码需要170秒
largedf.groupby('col1')['col2'].sum().compute()
对于快行代码后的40,000行文件,需要188毫秒
%time dask_df.groupby('col1')['col2'].sum().compute()
Wall time: 188 ms
但是相同代码的熊猫要快数千倍
%time pandas_df.groupby('col1')['col2'].sum()
Wall time: 0 ns
Dask确实比熊猫慢很多,否则我做错了。