您好,我正在使用TensorFlow和Keras训练模型,并且数据集是从https://www.microsoft.com/en-us/download/confirmation.aspx?id=54765下载的
这是我在以下目录中拆分的一个zip文件夹:
.
├── test
│ ├── Cat
│ └── Dog
└── train
├── Cat
└── Dog
Test.cat和test.dog的每个文件夹都有1000张jpg照片,train.cat和traing.dog的每个文件夹都有11500 jpg张照片。
负载正在执行以下代码:
batch_size = 16
# Data augmentation and preprocess
train_datagen = ImageDataGenerator(rescale=1./255,
shear_range=0.2,
zoom_range=0.2,
horizontal_flip=True,
validation_split=0.20) # set validation split
# Train dataset
train_generator = train_datagen.flow_from_directory(
'PetImages/train',
target_size=(244, 244),
batch_size=batch_size,
class_mode='binary',
subset='training') # set as training data
# Validation dataset
validation_generator = train_datagen.flow_from_directory(
'PetImages/train',
target_size=(244, 244),
batch_size=batch_size,
class_mode='binary',
subset='validation') # set as validation data
test_datagen = ImageDataGenerator(rescale=1./255)
# Test dataset
test_datagen = test_datagen.flow_from_directory(
'PetImages/test')
该模型正在使用以下代码进行训练:
history = model.fit(train_generator,
validation_data=validation_generator,
epochs=5)
我得到以下输入:
Epoch 1/5
1150/1150 [==============================] - ETA: 0s - loss: 0.0505 - accuracy: 0.9906
但是,当时代到了这一点,我得到以下错误:
UnidentifiedImageError:无法识别图像文件<_io.BytesIO对象 在0x7f9e185347d0>
为了完成培训,我该如何解决?
谢谢
答案 0 :(得分:2)
尝试使用此功能检查图像是否全部正确格式。
{{1}}
答案 1 :(得分:1)
我以前遇到过这个问题。因此,我开发了一个python脚本来测试训练和测试目录中的有效图像文件。文件扩展名必须是jpg,png,bmp或gif之一,因此它将首先检查正确的扩展名。然后,它尝试使用cv2读取图像。如果未输入有效图像,则会创建异常。在每种情况下,都会打印出错误的文件名。最后,一个名为bad_list的列表包含错误文件路径的列表。注意目录必须名为“ test”和“ train”
import os
import cv2
bad_list=[]
dir=r'c:\'PetImages'
subdir_list=os.listdir(dir) # create a list of the sub directories in the directory ie train or test
for d in subdir_list: # iterate through the sub directories train and test
dpath=os.path.join (dir, d) # create path to sub directory
if d in ['test', 'train']:
class_list=os.listdir(dpath) # list of classes ie dog or cat
# print (class_list)
for klass in class_list: # iterate through the two classes
class_path=os.path.join(dpath, klass) # path to class directory
#print(class_path)
file_list=os.listdir(class_path) # create list of files in class directory
for f in file_list: # iterate through the files
fpath=os.path.join (class_path,f)
index=f.rfind('.') # find index of period infilename
ext=f[index+1:] # get the files extension
if ext not in ['jpg', 'png', 'bmp', 'gif']:
print(f'file {fpath} has an invalid extension {ext}')
bad_list.append(fpath)
else:
try:
img=cv2.imread(fpath)
size=img.shape
except:
print(f'file {fpath} is not a valid image file ')
bad_list.append(fpath)
print (bad_list)
答案 2 :(得分:1)
您的图像可能已损坏。在数据预处理步骤中,尝试使用Image.open()查看是否可以打开所有图像。
答案 3 :(得分:1)
我不知道这是否仍然适用,但对于将来会遇到同样问题的人:
在这种特定情况下,dog_cat 数据集中有两个损坏的文件:
只需删除它们即可。