在Python

时间:2018-03-12 19:13:47

标签: python pandas dataframe

我正在以下列方式更新大型csv文件(~5GB)的特定列中的空行项目。

  1. 将csv文件转换为Pandas Dataframe
  2. 如果数据框中的必需列具有空值,请根据数据框的不同列中的值使用特定值更新它。例如:在下面的代码中,我正在检查“center”列是否具有空值,如果是,则将“0070”更新为帐户列值为“DNA”或“BBA”的所有行项。
  3.    if df['center'].isnull().any().any() == True:
          df.loc[df.account.str.startswith('DNA') | df.account.str.startswith('BBA'), 'center'] = "0070"
    

    我通过实现上述方法获得了所需的结果,但是由于要检查和更新的列数超过10列,因此在整个数据集上运行大约需要4-5分钟(~5GB)。有没有更好的方法来提高代码效率?

0 个答案:

没有答案