加载图像数据集

时间:2020-09-06 07:24:16

标签: python tensorflow jupyter-notebook google-colaboratory image-manipulation

我正在尝试从包含10M图像和10K类的特定目录中加载数据,但问题是我没有所有类的目录,所有图像都仅位于一个目录中。我有一个包含ID和标签的CSV文件标签。并且我正在尝试使用VGG16模型。

CSV:
id,lable
abf20a,CAR
dsf8sd,BIKE

此处abf20a是图片名称"abf20a.jpg"

所以请在这里帮助我如何将图像和标签一起加载并使用VGG16训练模型

谢谢

维萨尔

3 个答案:

答案 0 :(得分:1)

您可以使用ImageDataGenerator的flow_from_dataframe方法使用CSV文件加载图像。
代码:

import tensorflow as tf
import pandas as pd

df = pd.read_csv('data/img/new.csv')

# Data augmentation pipeline
train_datagen = tf.keras.preprocessing.image.ImageDataGenerator()

# Reading files from path in data frame
train_ds = train_datagen.flow_from_dataframe(df,directory = 'data/img/new', x_col = 'filename', y_col = 'label')

数据框如下所示:

    filename    label
0   Capture.PNG 0

如果您的文件名中仅包含ID。您可以使用pandas apply方法添加jpg扩展名。

df['id'] = df['id'].apply(lambda x: '{}.jpg'.format(x))

有关ImageDataGenerator提供的一组完整的数据增强选项,您可以查看this

有关flow_from_dataframe的完整选项集,请查看this

有了这个,您不必担心标签不匹配,因为这是内置的TensorFlow方法。另外,这些文件会在必要时加载,这样可以避免主内存混乱。

对于培训,您可以简单地使用:

model.fit(
        train_ds,
        steps_per_epoch=2000,
        epochs=50,
        validation_data=validation_ds,
        validation_steps=800)

答案 1 :(得分:0)

  1. 使用os.walk(directory)按字母顺序获取文件名列表
  2. 读取csv文件并生成labels_list列表,该列表带有与文件名相同顺序的类标签。 使用
  3. tf.keras.preprocessing.image_dataset_from_directory()与参数label=labels_list一起使用

这将为您提供一个tf.data.Dataset,您可以将其输入训练功能。

答案 2 :(得分:0)

我认为您可以使用ID标签迭代csv文件以读取图像。 例如:

import csv 

csv_path = 'your_csv_path'
images_base_path = 'your_images_path'

images=[]
labels=[] 

with open(csv_path, newline='',encoding="utf8") as csvfile:
      spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
      for row in spamreader:
          # And than you can do like this:
          # images_complete_path = images_base_path +  row[0]
          # images.append(imread(images_complete_path))
          # labels.append(row[1])

然后您将获得图像和标签。 这只是一个想法,您可以轻松实现它。 希望对您有所帮助。