Dask Dataframe是否有“产品”汇总?

时间:2019-05-02 15:28:16

标签: dataframe aggregate pandas-groupby dask

我正在尝试使用Dask Dataframe聚合大型数据集。

我的dd.df看起来像这样:

seq                                       kegg       evalue
AAAAAAAAPAADAKK                           K02897     0.001
AAAAAAAAPAADAKK                           K02897     0.007
AAAAAAAAPAPAPVAEEGEPIEHLPEITFDDFSKVELRVAR K01874     0.1

我正在尝试使用groupby:

  1. 计算将相同的“ kegg”连接到每个“ seq”的次数
  2. 找到与每个“ seq”相连的每个“ kegg”的“ evalue”乘积

我尝试通过以下方式使用groupby().agg()

df.groupby(['seq','kegg']).agg({'kegg':['count'], 
'evalue':['prod']}, split_out=10)

但是,出现以下错误:

ValueError: unknown aggregate prod

查看文档,看起来好像有产品汇总,但是显然这是行不通的。

我既不熟悉熊猫又不熟悉,所以我确定这是一个简单的解决方法,只是我不了解。

1 个答案:

答案 0 :(得分:0)

如上面的评论所讨论的,这通过安装较新版本的Dask得以解决