我尝试使用jtessbox使用mnist数据集训练tesseract。首先,我要创建像这样的图像和盒子文件。 Sample 在数据集中有60.000个数字图像,我可以创建许多新图像,例如样本。创建数据集后,我将创建盒子文件。 之后,在Trainer标签中使用jTessBoxEditor,我将 combine_tessdata.exe 选择为 tesseract可执行文件,并将新创建的映像之一选择为 Training Data 。我选择带现有包装盒的火车并开始跑步。
(我尝试在VietOcr上进行建模。)
如果我创建1.000个样本及其框,则该模型会预测0或2,就像什么都没学到一样
但是,如果我用他们的盒子创建50个样本,则模型预测的结果会更准确,但预测结果仍然很差。
所以我的问题是我在哪里做错了? 我会跳过一步还是tesseract无法学习手写数字?