使用python和numpy加载文件的最快方法是什么?

时间:2019-02-25 03:47:41

标签: python numpy keras io bigdata

我想训练一个模型,但是我有一个很大的训练数据集。 它的大小超过20GB。 但是当我尝试阅读它时,花费了很长时间。 我的意思是将其加载到内存中。

with open(file_path, newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for i,row in enumerate(islice(reader,0,1)):
        train_data = np.array(makefloat(row))[None,:]
    for i,row in enumerate(reader):
        train_data = np.vstack((train_data,np.array(makefloat(row))[None,:]))

每行有43个浮点数。

花了很长时间,我只测试了100,000行,花了20分钟。

我认为我做错了。我怎样才能更快?

1 个答案:

答案 0 :(得分:0)

读取整个文件不好。您可以使用诸如Dask之类的工具来读取文件,并且速度更快。 Dask