为什么UTF-8需要更多时间进行处理

时间:2017-11-22 13:23:24

标签: python pandas encoding utf-8

处理utf-8时性能下降的原因是什么

我有一个Pandas代码,我从块中读取csv进行一些数据转换。在分配encoding='utf-8'之前,我的基准是每250k行29s

在我实施utf-8加入read_csvto_csv后,需要两倍的时间,即每250k行60s

for df in pd.read_csv(downloaded_file, chunksize=chunksize, compression='gzip', low_memory=False,
                                  skipinitialspace=True, encoding='utf-8'):

# do some handling

df.to_csv(outfile_name, index=False, compression='gzip', sep='\t', quoting=1, encoding='utf-8')

我的数据处理主要是重命名列,检测和删除列入黑名单的单词,舍入价格等。

0 个答案:

没有答案