Question

我正在使用Tesseract OCR获取PDF文件中的专用数字字符串。 PDF包含：66600O3377.pdf 但Tesseract承认：66600Q3377.pdf

输入是一个TIFF文件，质量足够好（见截图）。

有没有办法提高Tesseract准确度？我总是可以将Q改为0，但我担心会出现进一步的意外错误。

enter image description here

Answer 1

运行这样的tesseract命令只允许输入图像中的数字：

tesseract imagename outputbase digits