当我尝试将numpy数组保存到.npy文件时,出现内存错误。如何使用内存有限的图像文件创建较大的.npy文件?

时间:2019-06-05 09:04:18

标签: python python-3.x numpy memory keras

我是处理大型数据集的新手。我想用我的训练数据生成一个.npy文件。我有大约1.7GB的PNG图像要加载,但是由于内存错误,我将此设置分成了块,现在我仅尝试将价值389.5 MB的PNG文件加载到一个numpy数组中,然后保存它。我能够将文件加载到数组中,但是当我尝试保存它时,出现内存错误。我尝试了.pickle和.npy文件类型。我很困惑为什么这是个问题,因为我的笔记本电脑有8GB的RAM。我可以看到我的代码中存在一些内存效率低下的问题,但是我还没有找到解决它们的方法。如何将这些数据加载到.npy文件中?对我来说,最好的方法是将其余的训练数据也包括在内?

def create_training_data():
    training_data = []
    IMAGE_SIZE = 640
    DATADIR = os.path.join(os.path.dirname(__file__), 'training_data')  # directory where training data is held
    CATEGORIES = ["0", "1"]
    count = 0
    fail = 0
    for category in CATEGORIES:

        path = os.path.join(DATADIR, category)
        class_num = CATEGORIES.index(category)
        for img in os.listdir(path):#
            count += 1
            print(str(count))
            try:

                img_array = cv2.imread(os.path.join(path, img))
                if not (img_array.shape[0] == IMAGE_SIZE and img_array.shape[1] == IMAGE_SIZE):
                    img_array = cv2.resize(img_array, (IMAGE_SIZE, IMAGE_SIZE))

                training_data.append([img_array, class_num])

            except Exception:

                fail += 1
                print("failed "+str(fail)+"/"+str(count))

    random.shuffle(training_data)
    X = []
    y = []

    for features, label in training_data:

        X.append(features)
        print(str(features))
        y.append(label)
    # X = np.array(X).reshape(-1, IMAGE_SIZE, IMAGE_SIZE, 3)
    np.save('training_data/X.npy', X)
    np.save('training_data/y.npy', y)
    # pickle_out = open("training_data/X.pickle", "wb")
    # pickle.dump(X, pickle_out)
    # pickle_out.close()pytho
    # pickle_out = open("training_data/y.pickle", "wb")
    # pickle.dump(y, pickle_out)
    # pickle_out.close()

任何帮助将不胜感激!

1 个答案:

答案 0 :(得分:1)

Pickle和numpy.save的内存效率太低,无法保存大型数据集,我建议您使用h5py将数据另存为HDF5,这非常有效并且应该在这些约束下工作。

我用它来保存数百GB的图像数据集,而RAM使用率却很低。