我有一些手写数字的10000个BMP图像。如果我想将数据馈送到神经网络,我需要做什么?对于MNIST数据集,我只需编写
(X_train, y_train), (X_test, y_test) = mnist.load_data()
我在python中使用Keras库。我该如何创建这样的数据集?
答案 0 :(得分:8)
您可以编写一个加载所有图像的函数,并将它们堆叠成一个numpy数组(如果所有图像都适合RAM)或使用包含函数flow_from_directory
的Keras ImageDataGenerator(https://keras.io/preprocessing/image/)。你可以在https://gist.github.com/fchollet/0830affa1f7f19fd47b06d4cf89ed44d找到一个例子。
答案 1 :(得分:1)
您应该编写自己的函数来加载所有图像或执行以下操作:
imagePaths = sorted(list(paths.list_images(args["testset"])))
# loop over the input images
for imagePath in imagePaths:
# load the image, pre-process it, and store it in the data list
image = cv2.imread(imagePath)
image = cv2.resize(image, (IMAGE_DIMS[1], IMAGE_DIMS[0]))
image = img_to_array(image)
data.append(image)
# extract the class label from the image path and update the
# labels list
data = np.array(data, dtype="float") / 255.0
答案 2 :(得分:0)
numpy可以将数组保存为二进制文件 numpy save
import numpy as np
def save_data():
[images, labels] = read_data()
outshape = len(images[0])
npimages = np.empty((0, outshape), dtype=np.int32)
nplabels = np.empty((0,), dtype=np.int32)
for i in range(len(labels)):
label = labels[i]
npimages = np.append(npimages, [images[i]], axis=0)
nplabels = np.append(nplabels, y)
np.save('images', npimages)
np.save('labels', nplabels)
def read_data():
return [np.load('images.npy'), np.load('labels.npy')]
答案 3 :(得分:0)
我可能迟到了,但我发布了答案,以帮助其他访问此问题的人寻找答案。在这个答案中,我将解释数据集类型,如何生成此类数据集以及如何加载这些文件。
什么是文件格式
这些数据集是已经vectorized
和Numpy format
中的数据集。检查here (Keras Datasets Documentation)作为参考。这些数据集以.npz
文件格式存储。选中here(MNIST digits classification dataset)。这是从文档中复制的代码块,以供参考。
tf.keras.datasets.mnist.load_data(path="mnist.npz")
一旦生成.npz文件,就可以使用mnist默认数据集的方式来使用它。
如何生成.npz文件
这里是如何从文件夹中的所有图像生成这样的数据集
#generate and save file
from PIL import Image
import os
import numpy as np
path_to_files = "./images/"
vectorized_images = []
for _, file in enumerate(os.listdir(path_to_files)):
image = Image.open(path_to_files + file)
image_array = np.array(image)
vectorized_images.append(image_array)
# save as DataX or any other name. But the same element name is to be used while loading it back.
np.savez("./mnistlikedataset.npz",DataX=vectorized_images)
如果您要使用保存多个元素,则可以对代码进行其他适当的更改来执行类似的操作。
np.savez("./mnistlikedataset.npz",DataX=vectorized_images_x,DataY=vectorized_images_Y)
如何加载数据文件
#load and use file
import numpy as np
path = "./mnistlikedataset.npz"
with np.load(path) as data:
#load DataX as train_data
train_data = data['DataX']
print(train_data)
类似于保存多个元素,如果要从文件中加载多个元素,则可以进行其他适当的更改来完成类似的操作
with np.load(path) as data:
train_data = data['DataX']
print(train_data)
test_data = data['DataY']
print(test_data)