如何从图像文件夹创建数据集以在Python中进行文本识别

时间:2019-05-06 09:08:58

标签: python artificial-intelligence jupyter

我正在使用Python的文本识别系统进行工作,该系统会获取打印文本的图像,然后输出该图像中单词的文本。

要准备训练和测试数据集,我有一个文件夹,其中包含35个子文件夹(a-z和1-9)。每个子文件夹包含不同字体的大约45个字母/数字的图像(png文件)(文件夹a包含45个字母a的图像)。像这样的:Example of letter a Example of letter a Example of letter a

我想将所有这些文件夹转换成可以在训练和测试集中使用的数据集:

(X_train, y_train), (X_test, y_test) = dataset

我已经完成了像MNIST这样的数据集的下载,但是我想知道如何从我自己创建的数据集中下载数据。

谢谢。

0 个答案:

没有答案