我一直在尝试训练Tesseract 4.0以识别工程蓝图中的“定制”字体。我从这里开始使用Training Tesseract遵循了必要的步骤- https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00
我从蓝图页面创建了一个tiff图像。我能够创建一个盒子文件并使用tesseract4java编辑该盒子文件。问题是训练后我得到的只是空白输出。
是否可以直接从图像文件中训练Tesseract,而无需提供具有确切字体的初始文本文件?