我正在尝试预处理大型数据帧(约7500万行),常见的工作量涉及应用来自字典或数据库读取器的标签或位置数据。
是否可以并行化这些单行查找操作?
我尝试过使用swifter,它可以检测可矢量化的操作并轻松执行它们,但是,这似乎总是只使用普通的熊猫应用方法。有某种方式可以向量化查找操作吗?
df.col.swifter.apply(lambda x: label_dict[x])
df.col.apply(lambda x: latitude_dict[x])
我想加快这些操作-内存和内核不是问题。