这是调用compute()
的正确方法吗?
def call_minmax_duration(data):
mmin = dd.DataFrame.min(data).compute()
mmax = dd.DataFrame.max(data).compute()
return mmin, mmax
答案 0 :(得分:2)
两件事。
您的data
变量应该是dask.dataframe对象,例如可能由dd.from_pandas(...)
或dd.read_csv(...)
其次,一次计算两个结果可能更好,因为共享中间体只需要计算一次
import dask.dataframe as dd
df = dd.read_csv('2016-*-*.csv')
dd.compute(df.mycolumn.min(), df.mycolumn.max())