dask计算最小的正确模式?

时间:2016-11-01 19:07:32

标签: python dask

这是调用compute()的正确方法吗?

def call_minmax_duration(data):
    mmin = dd.DataFrame.min(data).compute()
    mmax = dd.DataFrame.max(data).compute()
    return mmin, mmax

1 个答案:

答案 0 :(得分:2)

两件事。

您的data变量应该是dask.dataframe对象,例如可能由dd.from_pandas(...)dd.read_csv(...)

创建

其次,一次计算两个结果可能更好,因为共享中间体只需要计算一次

实施例

import dask.dataframe as dd
df = dd.read_csv('2016-*-*.csv')

dd.compute(df.mycolumn.min(), df.mycolumn.max())