如何在Dask DataFrame中对一列进行分组并汇总另一个列作为列表?

时间:2019-06-06 13:04:56

标签: python dataframe dask

我有一个Dask DataFrame,我想从中分组一列,然后将agg作为其他列的列表进行分组。

例如:ddf.groupby('group_id')['name', 'department'].agg(list)

有没有一种方法可以实现它?

1 个答案:

答案 0 :(得分:1)

以dask的时间序列为例,可以使用以下方式将列聚合为列表:

import dask
import dask.dataframe as dd
import pandas as pd
df = dask.datasets.timeseries()
name_aggr = df.groupby(["id"])['name'].apply(list, meta=pd.DataFrame).compute()

感谢@rpanai的帮助!