我目前对在Keras的CNN中创建数据集感到有些困惑。
该网络基本上是MNIST的数字识别问题,但对于韩文字母的字符而言。而不是存在0-9个可能的类,而是有2350个类。有人已经在TensorFlow中做了完全相同的事情,但是我试图在Keras本人(https://github.com/IBM/tensorflow-hangul-recognition)中做同样的事情。
我有一个jpeg文件文件夹,一个将每个jpeg映射到其相应标签的.csv文件,最后是一个带有所有可能标签的文件。例如,.csv中的前几行是:
image-data/hangul-images/hangul_1.jpeg, 가
image-data/hangul-images/hangul_2.jpeg, 가
image-data/hangul-images/hangul_3.jpeg, 가
image-data/hangul-images/hangul_4.jpeg, 가
所有可能的标签/类的列表中的前几行是:
가
각
간
갇
An example jpeg of the first character is attached 在我眼中,我拥有了我需要的所有部分,我只需要知道如何将它们放在一起以训练网络。