我正在使用Dask操纵数据集。我想根据这些数据集的相应分位数将这些数据集归类为没有唯一值,然后为每个数据集添加标签。
在熊猫中,这很容易:
$ echo 'abc def gks dps' | sed -E 's/\s+/\n/g'
abc
def
gks
dps
但是我不知道如何在Dask中使用map或map_partitions。
我一直在无休止地阅读文档,也发现了类似的question,但答案缺少我需要的解释。
我的初始代码是
tags = range(4, 0, -1)
groups = pd.qcut(df.column_name.rank(method='first'), q = 4, labels = tags)
df['ranks'] = groups.values
但是我收到一个错误:
data['tot_top_amt'].map_partitions(pd.qcut,4, duplicates='drop')