当从镶木地板读取时,dask dataframe列重命名很慢(呃)

时间:2017-03-24 21:17:09

标签: python performance dask

我发现只要从镶木地板文件中读取数据帧,public class Main1 { private readonly ListView _lv; public Main1(ListView listview) { _lv = listview; } public ListView addItemToLV(string text) { _lv.Items.Add(text); return _lv; } } 就会显着增加计算时间:

dask.dataframe.rename

请注意,原始数据框架的差异很小,但基于实木复合地板的数据框架的差异超过了两倍。

这个问题在大型数据集(~20-30GB)上被夸大了,我看到In [1]: import dask.dataframe as dd ...: df = dd.demo.daily_stock('GOOG', '2008', '2010', freq='1s', random_state=1234) ...: In [2]: %time df.close.mean().compute() CPU times: user 7.73 s, sys: 1.15 s, total: 8.88 s Wall time: 3.5 s Out[2]: 452.30345234893554 In [3]: %time df = df.rename(columns={col: col.upper() for col in df.columns}); df.CLOSE.mean().compute() CPU times: user 8.06 s, sys: 1.21 s, total: 9.27 s Wall time: 3.81 s In [4]: df.to_parquet('df', compression='GZIP') ...: df = dd.read_parquet('df') ...: In [5]: %time df.CLOSE.mean().compute() CPU times: user 4.14 s, sys: 729 ms, total: 4.87 s Wall time: 2.1 s Out[5]: 452.30345234893554 In [6]: %time df = df.rename(columns={col: col.lower() for col in df.columns}); df.close.mean().compute() CPU times: user 9.72 s, sys: 1.89 s, total: 11.6 s Wall time: 4.81 s 次计算从几秒到几分钟。

这是我不知道的镶木地板文件固有的东西,还是某种错误?

2 个答案:

答案 0 :(得分:5)

Parquet是一家专卖店。从镶木地板文件中读取单个列可能比读取整个数据集快得多。当您执行df.close.mean().compute() Dask注意事项时,您有一个read_parquet操作,紧接着是一个列访问操作,它可以智能地将它们融合到更智能的东西中,如下所示:

df = dd.read_parquet(filename, columns=['close'])

但是,当你在rename调用和列访问操作之间抛出read_parquet操作时,Dask.dataframe不够聪明,无法实现列访问和重命名,所以你结束了读取镶木地板文件中的所有数据,重命名列,然后丢弃除了一列之外的所有列。

缺乏对计算执行高级推理的能力正是数据库或更多高级系统(如Spark Dataframes)开始在Dask.dataframe上胜出的地方。 Dask的核心通常是较低级别的,因此可以进行更疯狂的计算,但是除了最基本的查询优化之外,它几乎无法执行任何操作。

因此,在这种情况下,rename减慢了事实并不是事实,rename在一个非常简单的优化方案中抛出了一个扳手。

答案 1 :(得分:2)

这可能是因为重命名方法作用于数据帧的每个分区,并且它有一个我认为相当于dd.rename的开销

考虑一下:

In [45]: %time (dd.demo.daily_stock('GOOG', '2008', '2010', freq='1s',  
random_state=1234).repartition(npartitions=1).rename(columns = {col: 
col.upper() for col in df.columns}).CLOSE.mean().compute())
CPU times: user 11.7 s, sys: 4.65 s, total: 16.3 s
Wall time: 9.23 s
Out[45]: 450.46079905299979

In [46]: %time (dd.demo.daily_stock('GOOG', '2008', '2010', freq='1s',  
random_state=1234).repartition(npartitions=1).close.mean().compute())
CPU times: user 11.3 s, sys: 4.63 s, total: 15.9 s
Wall time: 8.8 s
Out[46]: 450.46079905299979

当分区设置为1时,重命名开销似乎不像示例中那样明显。

更新1:添加拼花示例

In [103]: data =dd.read_parquet('df').repartition(npartitions=1).rename(columns = {'close':'ClOSE', 'high ':'HIGH', 'low':'LOW', 'open':'OPEN'})

In [104]: %time data.ClOSE.mean().compute()
CPU times: user 9.68 s, sys: 2.84 s, total: 12.5 s
Wall time: 5.72 s
Out[104]: 450.46079905299979

In [105]: data = dd.read_parquet('df').repartition(npartitions=1)

In [106]: %time data.close.mean().compute()
CPU times: user 9.37 s, sys: 2.56 s, total: 11.9 s
Wall time: 5.1 s
Out[106]: 450.46079905299979

更新2:明确添加列

Per Matt上面的回答,避免阅读Parquet文件的所有列如下所示:

%time dd.read_parquet('df',columns =['close']).rename(columns = {'close':'CLOSE'}).CLOSE.mean().com
     ...: pute()
CPU times: user 4.65 s, sys: 801 ms, total: 5.45 s
Wall time: 2.71 s

类似于:

%time dd.read_parquet('df',columns =['close']).close.mean().compute()
CPU times: user 4.46 s, sys: 795 ms, total: 5.25 s
Wall time: 2.51 s
Out[110]: 450.46079905300002

除了:重命名+任务调度在我的计算机上的单个数据分区上有〜40ms的开销:

In [114]: %timeit -n 3 dd.read_parquet('df',columns =['close']).repartition(npartitions=1).rename(columns = {
     ...: 'close': 'CLOSE'}).CLOSE.mean().compute()
3 loops, best of 3: 2.36 s per loop

In [115]: %timeit -n 3 dd.read_parquet('df',columns =['close']).repartition(npartitions=1).close.mean().compu
     ...: te()
3 loops, best of 3: 2.32 s per loop

应用于500个分区,大约20秒。为了以防万一,这种事情将来会有所帮助。