对大熊猫数据框应用多种(字符串)清洗功能的最佳方法

时间:2019-02-26 19:12:08

标签: python pandas

我有一些大熊猫数据帧(每列300多个列,每行约1.14亿行)。大多数列都是字符串,并且其中存在一些问题,例如要求使用trim或转换为句子大小写,删除转义字符(例如\n)等。目前,我的工作流程清理涉及:

  1. 一个函数(clean_up),它将所需的清理函数应用于所传递的列中的每个值。
  2. clean_up还检查该列是否不是object类型,如果不是object,则返回未编辑的列。
  3. 调用dataframe.apply的{​​{1}}。

您可以想象,这段代码永远要花时间运行。我唯一的想法是将上述第3步的任务拆分为在多个进程上运行(因为每一列的处理均独立于其他列),最后将数据框缝合在一起(例如使用{{1} }。有人知道更好的方法吗?

0 个答案:

没有答案