我正在尝试使用Dask Dataframe聚合大型数据集。
我的dd.df看起来像这样:
seq kegg evalue
AAAAAAAAPAADAKK K02897 0.001
AAAAAAAAPAADAKK K02897 0.007
AAAAAAAAPAPAPVAEEGEPIEHLPEITFDDFSKVELRVAR K01874 0.1
我正在尝试使用groupby:
我尝试通过以下方式使用groupby().agg()
:
df.groupby(['seq','kegg']).agg({'kegg':['count'],
'evalue':['prod']}, split_out=10)
但是,出现以下错误:
ValueError: unknown aggregate prod
查看文档,看起来好像有产品汇总,但是显然这是行不通的。
我既不熟悉熊猫又不熟悉,所以我确定这是一个简单的解决方法,只是我不了解。
答案 0 :(得分:0)
如上面的评论所讨论的,这通过安装较新版本的Dask得以解决