按dask dataframe map_partitions的键错误分组

时间:2018-05-22 07:39:11

标签: python pandas pandas-groupby dask

我试图在大数据帧上运行dask作业。本质上,数据框中有两个组,我在它们之间执行模糊匹配。一组是进行匹配的组,另一组是匹配的组。匹配组的值为3.0,匹配的组的值为1.5或2.0。

我的代码大部分都有效,但在完成后(需要几个小时),它会给匹配组带来一个关键错误。

这是我的代码:

for i in [2.0,1.5]:
    FuzzyWuzzyResults = emb.map_partitions(
        lambda df: df.groupby('phase').get_group(3.0)['drugs'].apply(
            fuzzy_match, args=(df.groupby('phase').get_group(i)['drugs'],
            fuzz.token_sort_ratio,85)), meta=('results')
        ).compute() 

它适用于大熊猫数据帧的大多数分区,但最后,我得到了一对" KeyError 3.0"错误,代码间断。我怎样才能解决这个问题?如果可能的话,我不想使用groupby而是将og数据框分成两部分并以这种方式应用dask工作,但我不确定。

0 个答案:

没有答案