应用错误收集

处理utf-8时性能下降的原因是什么

我有一个Pandas代码，我从块中读取csv进行一些数据转换。在分配encoding='utf-8'之前，我的基准是每250k行29s。

在我实施utf-8加入read_csv和to_csv后，需要两倍的时间，即每250k行60s。

for df in pd.read_csv(downloaded_file, chunksize=chunksize, compression='gzip', low_memory=False,
                                  skipinitialspace=True, encoding='utf-8'):

# do some handling

df.to_csv(outfile_name, index=False, compression='gzip', sep='\t', quoting=1, encoding='utf-8')

我的数据处理主要是重命名列，检测和删除列入黑名单的单词，舍入价格等。

为什么UTF-8需要更多时间进行处理

0 个答案: