有没有一种方法可以并行化pandas中dataframe列的字典映射?

时间:2019-07-05 14:32:21

标签: python pandas dask

我正在尝试预处理大型数据帧(约7500万行),常见的工作量涉及应用来自字典或数据库读取器的标签或位置数据。

是否可以并行化这些单行查找操作?

我尝试过使用swifter,它可以检测可矢量化的操作并轻松执行它们,但是,这似乎总是只使用普通的熊猫应用方法。有某种方式可以向量化查找操作吗?

df.col.swifter.apply(lambda x: label_dict[x])
df.col.apply(lambda x: latitude_dict[x])

我想加快这些操作-内存和内核不是问题。

0 个答案:

没有答案