处理utf-8时性能下降的原因是什么
我有一个Pandas代码,我从块中读取csv进行一些数据转换。在分配encoding='utf-8'
之前,我的基准是每250k行29s
。
在我实施utf-8
加入read_csv
和to_csv
后,需要两倍的时间,即每250k行60s
。
for df in pd.read_csv(downloaded_file, chunksize=chunksize, compression='gzip', low_memory=False,
skipinitialspace=True, encoding='utf-8'):
# do some handling
df.to_csv(outfile_name, index=False, compression='gzip', sep='\t', quoting=1, encoding='utf-8')
我的数据处理主要是重命名列,检测和删除列入黑名单的单词,舍入价格等。