我有一个Dask DataFrame,我想从中分组一列,然后将agg作为其他列的列表进行分组。
例如:ddf.groupby('group_id')['name', 'department'].agg(list)
有没有一种方法可以实现它?
答案 0 :(得分:1)
以dask的时间序列为例,可以使用以下方式将列聚合为列表:
import dask
import dask.dataframe as dd
import pandas as pd
df = dask.datasets.timeseries()
name_aggr = df.groupby(["id"])['name'].apply(list, meta=pd.DataFrame).compute()
感谢@rpanai的帮助!