我有一些大熊猫数据帧(每列300多个列,每行约1.14亿行)。大多数列都是字符串,并且其中存在一些问题,例如要求使用trim
或转换为句子大小写,删除转义字符(例如\n
)等。目前,我的工作流程清理涉及:
clean_up
),它将所需的清理函数应用于所传递的列中的每个值。clean_up
还检查该列是否不是object
类型,如果不是object
,则返回未编辑的列。dataframe.apply
的{{1}}。您可以想象,这段代码永远要花时间运行。我唯一的想法是将上述第3步的任务拆分为在多个进程上运行(因为每一列的处理均独立于其他列),最后将数据框缝合在一起(例如使用{{1} }。有人知道更好的方法吗?