dask groupby聚合正确用法

时间:2017-10-26 13:57:39

标签: python distributed dask

我想了解以下代码中的不同行为。

这是使用dask / distributed / ubuntu 16.04新的conda安装

us=dd.read_parquet("/home/.......",["date","num_25","num_100","num_unq"]).persist()
g=us.groupby("us.date.dt.week)

x=g["num_25","num_100","num_unq"].mean()  # Works !
x=client.persist(x)                       #

x=g["num_25","num_100","num_unq"].var()   #  NOT WORKING
x=client.persist(x)                       #

x=g["num_25","num_100","num_unq"].std()   #  NOT WORKING
x=client.persist(x)                       #

x=g.num_100.var()                         #  Works
x=client.persist(x)

我可以使用mean / min / max。

聚合上面示例中的列组

但是,对于例如std / var我需要分解并一次计算一列。

如果它不起作用,堆栈会报告键错误(“num_25”,“num_100”,“num_unq”)

1 个答案:

答案 0 :(得分:0)

在Pandas / Dask.dataframe中,您可以通过传递列列来选择多个列。

f((0.4-0.1)-0.3)