我一直在熊猫中使用以下命令使用正则表达式将某些字符替换为另一字符:
df = df.replace(r'\t|\r|\n', '', regex=True)
答案 0 :(得分:3)
处理诸如此类的逐行操作的最常见方法是使用map_partitions
,它使您可以处理dask-dataframe的每个块,每个块都是一个真实的pandas数据帧。
在此示例中
df2 = df.map_partitions(lambda d: d.replace(r'\t|\r|\n', '', regex=True))
其中df
是一个简单的数据框。请注意,与map_partitions
一起使用的函数需要一个pandas数据框并返回一个pandas数据框。