Tesseract - 训练的图像格式与初级OCR不同

时间:2016-06-23 15:18:32

标签: tesseract

正如本SO Question所讨论的,tesseract通常使用.png文件比使用.tiff文件更好。 (我自己也经历过这种情况)。不幸的是,可用的Box编辑器可以处理.png文件。因此,我很想使用.tiff文件训练我的数据,但后来使用.png文件进行主要的OCR工作。这样做会降低培训的效果吗?如果是这样,有没有办法解决它(除了找到一个可以接受.png文件的盒子编辑器)?

1 个答案:

答案 0 :(得分:1)

某些编辑器(如jTessBoxEditor(Tesseract AddOns页面))支持TIFF和PNG格式。由于TIFF可以是多页图像,因此与单页PNG相比,它可以为您的字符集提供更多样本。

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract