如何从头开始创建和格式化图像数据集以进行机器学习?

时间:2015-03-28 22:56:05

标签: image machine-learning deep-learning

我只使用.csv格式的ML。我也使用过图像格式,但只使用预制的图像集(MNIST等)。如果我要从头开始创建一个图像集,那么类标签通常是如何形成的?我是否必须手动标题jpeg的图像?

最好,杰里米

1 个答案:

答案 0 :(得分:2)

我使用的格式为:

的图像数据集
  1. 类名作为文件夹:顾名思义,属于特定类的图像将填充到特定文件夹中,文件夹名称代表该类。
  2. 例如,对于Cats vs. Dogs进行分类的数据集

    -Dataset/
    --Cats/
    ---all cat images here
    --Dogs/
    ---all dogs images here
    
    1. 单个文件夹+文本文件:所有图像都被转储到一个文件夹中 - 显然每个图像文件都有一个唯一的名称。 image_name : class的键值对可以存储为csv文件中的行。
    2. 例如

      -Dataset/
      --all images heree
      --imagename_class.csv 
      
      1. 文件名中包含类的单个文件夹:所有图像都可以放在一个文件夹中,图像名称的类别标签带有一些不断变化的索引值。
      2. 例如

        -Dataset/
        --cat_1.jpg
        --cat_2.jpg
        --dog_1.jpg
        --cat_3.jpg
        --... 
        

        希望这有帮助!