使用Python编写大型CSV的最快方法

时间:2015-01-01 14:04:35

标签: python csv numpy

我想在csv文件中写一些随机样本数据,直到它大到1GB。以下代码正在运行:

import numpy as np
import uuid
import csv
import os
outfile = 'data.csv'
outsize = 1024 # MB
with open(outfile, 'ab') as csvfile:
    wtr = csv.writer(csvfile)
    while (os.path.getsize(outfile)//1024**2) < outsize:
        wtr.writerow(['%s,%.6f,%.6f,%i' % (uuid.uuid4(), np.random.random()*50, np.random.random()*50, np.random.randint(1000))])    

如何加快速度?

3 个答案:

答案 0 :(得分:5)

问题似乎主要是IO限制。您可以通过以较大的块写入文件而不是一次写入一行来改善I / O:

import numpy as np
import uuid
import csv
import os
outfile = 'data-alt.csv'
outsize = 10 # MB
chunksize = 1000
with open(outfile, 'ab') as csvfile:
    while (os.path.getsize(outfile)//1024**2) < outsize:
        data = [[uuid.uuid4() for i in range(chunksize)],
                np.random.random(chunksize)*50,
                np.random.random(chunksize)*50,
                np.random.randint(1000, size=(chunksize,))]
        csvfile.writelines(['%s,%.6f,%.6f,%i\n' % row for row in zip(*data)])   

您可以尝试使用chunksize(每个块写入的行数)来查看在您的计算机上最有效的方法。


以下是基准测试,将上述代码与原始代码进行比较,outsize设置为10 MB:

% time original.py

real    0m5.379s
user    0m4.839s
sys 0m0.538s

% time write_in_chunks.py

real    0m4.205s
user    0m3.850s
sys 0m0.351s

所以这比原始代码快25%左右。


PS。我尝试将对os.path.getsize的调用替换为估计所需的总行数。不幸的是,它没有提高速度。由于表示最终int所需的字节数不同,因此估计也不准确 - 也就是说,它不能完美地复制原始代码的行为。所以我离开了os.path.getsize

答案 1 :(得分:4)

删除所有不必要的东西,因此它应该更快更容易理解:

import random
import uuid
outfile = 'data.csv'
outsize = 1024 * 1024 * 1024 # 1GB
with open(outfile, 'ab') as csvfile:
    size = 0
    while size < outsize:
        txt = '%s,%.6f,%.6f,%i\n' % (uuid.uuid4(), random.random()*50, random.random()*50, random.randrange(1000))
        size += len(txt)
        csvfile.write(txt)

答案 2 :(得分:0)

这是基于上述 unutbu 答案的更新:

大部分时间用于生成随机数和检查文件大小。

如果您提前生成行,您可以评估原始磁盘 io 性能:

import time
from pathlib import Path
import numpy as np
import uuid
outfile = Path('data-alt.csv')
chunksize = 1_800_000

data = [
    [uuid.uuid4() for i in range(chunksize)],
    np.random.random(chunksize) * 50,
    np.random.random(chunksize) * 50,
    np.random.randint(1000, size=(chunksize,))
]
rows = ['%s,%.6f,%.6f,%i\n' % row for row in zip(*data)]

t0 = time.time()
with open(outfile, 'a') as csvfile:
    csvfile.writelines(rows)
tdelta = time.time() - t0
print(tdelta)

在我的标准 860 evo ssd(不是 nvme)上,1_800_000 行我得到 1.43 秒,所以这是 1,258,741 行/秒(不太破旧的 imo)