我正在使用Python的文本识别系统进行工作,该系统会获取打印文本的图像,然后输出该图像中单词的文本。
要准备训练和测试数据集,我有一个文件夹,其中包含35个子文件夹(a-z和1-9)。每个子文件夹包含不同字体的大约45个字母/数字的图像(png文件)(文件夹a包含45个字母a的图像)。像这样的:
我想将所有这些文件夹转换成可以在训练和测试集中使用的数据集:
(X_train, y_train), (X_test, y_test) = dataset
我已经完成了像MNIST这样的数据集的下载,但是我想知道如何从我自己创建的数据集中下载数据。
谢谢。