正则表达式在Dask中的遮罩功能

时间:2018-07-06 14:21:32

标签: python pandas dask

我一直在熊猫中使用以下命令使用正则表达式将某些字符替换为另一字符:

df = df.replace(r'\t|\r|\n', '', regex=True)

但是正如here所述,我们有mask处于忙碌状态。但是我没有找到如何在此功能中使用正则表达式。任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:3)

处理诸如此类的逐行操作的最常见方法是使用map_partitions,它使您可以处理dask-dataframe的每个块,每个块都是一个真实的pandas数据帧。

在此示例中

df2 = df.map_partitions(lambda d: d.replace(r'\t|\r|\n', '', regex=True))

其中df是一个简单的数据框。请注意,与map_partitions一起使用的函数需要一个pandas数据框并返回一个pandas数据框。