Question

我想了解以下代码中的不同行为。

这是使用dask / distributed / ubuntu 16.04新的conda安装

us=dd.read_parquet("/home/.......",["date","num_25","num_100","num_unq"]).persist()
g=us.groupby("us.date.dt.week)

x=g["num_25","num_100","num_unq"].mean()  # Works !
x=client.persist(x)                       #

x=g["num_25","num_100","num_unq"].var()   #  NOT WORKING
x=client.persist(x)                       #

x=g["num_25","num_100","num_unq"].std()   #  NOT WORKING
x=client.persist(x)                       #

x=g.num_100.var()                         #  Works
x=client.persist(x)

我可以使用mean / min / max。

聚合上面示例中的列组

但是，对于例如std / var我需要分解并一次计算一列。

如果它不起作用，堆栈会报告键错误（“num_25”，“num_100”，“num_unq”）

Answer 1

在Pandas / Dask.dataframe中，您可以通过传递列列来选择多个列。

f((0.4-0.1)-0.3)

dask groupby聚合正确用法

1 个答案: