应用错误收集

我正在使用Python的文本识别系统进行工作，该系统会获取打印文本的图像，然后输出该图像中单词的文本。

要准备训练和测试数据集，我有一个文件夹，其中包含35个子文件夹（a-z和1-9）。每个子文件夹包含不同字体的大约45个字母/数字的图像（png文件）（文件夹a包含45个字母a的图像）。像这样的：

我想将所有这些文件夹转换成可以在训练和测试集中使用的数据集：

(X_train, y_train), (X_test, y_test) = dataset

我已经完成了像MNIST这样的数据集的下载，但是我想知道如何从我自己创建的数据集中下载数据。

谢谢。