达斯分组vs熊猫分组

时间:2018-10-12 11:11:30

标签: pandas dask

我正在尝试将熊猫代码迁移到dask以支持大数据。我的python程序的数据通常适合内存。因此,熊猫对它有好处。但是很少有数据超出系统内存要求。我的python程序包含很多groupby。因此,我在包含16 GB RAM和4核的PC上比较了熊猫的groupby速度与dask的groupby性能。

对于包含3000万行的文件,其后继代码需要170秒

largedf.groupby('col1')['col2'].sum().compute()

对于快行代码后的40,000行文件,需要188毫秒

%time dask_df.groupby('col1')['col2'].sum().compute()
Wall time: 188 ms

但是相同代码的熊猫要快数千倍

%time pandas_df.groupby('col1')['col2'].sum()
Wall time: 0 ns

Dask确实比熊猫慢很多,否则我做错了。

0 个答案:

没有答案