我是CNN领域的新手。
我要分类100张图像。
这些图像属于12类。
我有一个包含图像ID(该ID为图像文件名)和图像类的csv文件。
如何使用csv文件中的类并将其划分为训练和测试。
我的意思是,当我将数据拆分为训练和测试时,如何将csv文件中的100张图片及其类别划分为训练和测试,然后将其提供给模型。
我使用python和Keras库。
提前谢谢。
import os
import cv2
from keras.layers import Input,Dense,Flatten,Dropout,merge,Reshape,Conv3D,MaxPooling3D,UpSampling3D,Conv2DTranspose
from keras.layers.normalization import BatchNormalization
from keras.models import Model,Sequential
from keras.callbacks import ModelCheckpoint
from keras.optimizers import Adadelta, RMSprop,SGD,Adam
from keras import regularizers
from keras import backend as K
import numpy as np
import scipy.misc
import numpy.random as rng
from PIL import Image, ImageDraw, ImageFont
from sklearn.utils import shuffle
import nibabel as nib #reading MR images
from sklearn.model_selection import train_test_split
import math
import glob
from matplotlib import pyplot as plt
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')
files = glob.glob('/content/drive/My Drive/im_id/*')
files[0]
len(files)
images = []
for f in range(len(files)):
a = nib.load(files[f])
a = a.get_data()
images.append(a)
print(a.shape)
images = np.asarray(images)
print(images.shape)
labeles = pd.read_csv('/content/drive/My
Drive/img_id.csv')
print(labeles)
class_names = labeles["Class"]
from tensorflow.keras import datasets, layers, models
model = models.Sequential()
model.add(layers.Conv3D(32, (3, 3, 3), activation='relu', input_shape=(110, 110, 110, 1)))
model.add(layers.MaxPooling3D((2, 2, 2)))
model.add(layers.Conv3D(64, (3, 3, 3), activation='relu'))
model.add(layers.MaxPooling3D((2, 2, 2)))
model.add(layers.Conv3D(64, (3, 3, 3), activation='relu'))
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))
model.summary()
答案 0 :(得分:1)
您需要创建一个tf.data.Dataset
,它是表示一系列元素的抽象,其中每个元素由一个或多个组件组成。换句话说,它是python中的生成器。
我不知道您的数据,因此无法正确帮助您。我能做的最好的就是向您介绍如何做到这一点,并分享一些链接。
简而言之,您需要阅读csv
文件,建议使用pandas
和图像的路径。现在,您可以使用NumPy
拆分它们,例如,可以对数据进行混洗,然后获取数组中值的前10%进行测试,其余的进行训练。
接下来,您需要使用tf.data
API来生成数据集。方法tf.data.Dataset.from_tensor_slices
为您完成工作。您只需要传递NumPy
数组作为参数,并使生成器传递到Keras
管道。您必须对训练和测试阵列执行此操作。
我有一条管道可以here执行此操作。随意使用它。您还可以查看手册here和here
希望对您有帮助。