我是处理大型数据集的新手。我想用我的训练数据生成一个.npy文件。我有大约1.7GB的PNG图像要加载,但是由于内存错误,我将此设置分成了块,现在我仅尝试将价值389.5 MB的PNG文件加载到一个numpy数组中,然后保存它。我能够将文件加载到数组中,但是当我尝试保存它时,出现内存错误。我尝试了.pickle和.npy文件类型。我很困惑为什么这是个问题,因为我的笔记本电脑有8GB的RAM。我可以看到我的代码中存在一些内存效率低下的问题,但是我还没有找到解决它们的方法。如何将这些数据加载到.npy文件中?对我来说,最好的方法是将其余的训练数据也包括在内?
def create_training_data():
training_data = []
IMAGE_SIZE = 640
DATADIR = os.path.join(os.path.dirname(__file__), 'training_data') # directory where training data is held
CATEGORIES = ["0", "1"]
count = 0
fail = 0
for category in CATEGORIES:
path = os.path.join(DATADIR, category)
class_num = CATEGORIES.index(category)
for img in os.listdir(path):#
count += 1
print(str(count))
try:
img_array = cv2.imread(os.path.join(path, img))
if not (img_array.shape[0] == IMAGE_SIZE and img_array.shape[1] == IMAGE_SIZE):
img_array = cv2.resize(img_array, (IMAGE_SIZE, IMAGE_SIZE))
training_data.append([img_array, class_num])
except Exception:
fail += 1
print("failed "+str(fail)+"/"+str(count))
random.shuffle(training_data)
X = []
y = []
for features, label in training_data:
X.append(features)
print(str(features))
y.append(label)
# X = np.array(X).reshape(-1, IMAGE_SIZE, IMAGE_SIZE, 3)
np.save('training_data/X.npy', X)
np.save('training_data/y.npy', y)
# pickle_out = open("training_data/X.pickle", "wb")
# pickle.dump(X, pickle_out)
# pickle_out.close()pytho
# pickle_out = open("training_data/y.pickle", "wb")
# pickle.dump(y, pickle_out)
# pickle_out.close()
任何帮助将不胜感激!
答案 0 :(得分:1)
Pickle和numpy.save
的内存效率太低,无法保存大型数据集,我建议您使用h5py将数据另存为HDF5,这非常有效并且应该在这些约束下工作。
我用它来保存数百GB的图像数据集,而RAM使用率却很低。