Tesseract将0标识为Q.

时间:2013-12-19 08:23:37

标签: optimization tiff tesseract identification

我正在使用Tesseract OCR获取PDF文件中的专用数字字符串。 PDF包含:66600O3377.pdf 但Tesseract承认:66600Q3377.pdf

输入是一个TIFF文件,质量足够好(见截图)。

有没有办法提高Tesseract准确度?我总是可以将Q改为0,但我担心会出现进一步的意外错误。

enter image description here

1 个答案:

答案 0 :(得分:0)

这是Tesseract FAQ

运行这样的tesseract命令只允许输入图像中的数字:

tesseract imagename outputbase digits