Dask DataFrame中带有标签的分位数合并

时间:2019-04-05 05:19:02

标签: python pandas dask quantile binning

我正在使用Dask操纵数据集。我想根据这些数据集的相应分位数将这些数据集归类为没有唯一值,然后为每个数据集添加标签。

在熊猫中,这很容易:

$ echo 'abc  def    gks       dps' | sed -E 's/\s+/\n/g'
abc
def
gks
dps

但是我不知道如何在Dask中使用map或map_partitions。

我一直在无休止地阅读文档,也发现了类似的question,但答案缺少我需要的解释。

我的初始代码是

tags = range(4, 0, -1)
groups = pd.qcut(df.column_name.rank(method='first'), q = 4, labels = tags)
df['ranks'] = groups.values

但是我收到一个错误:

data['tot_top_amt'].map_partitions(pd.qcut,4, duplicates='drop')

0 个答案:

没有答案