标签: optimization tiff tesseract identification
我正在使用Tesseract OCR获取PDF文件中的专用数字字符串。 PDF包含:66600O3377.pdf 但Tesseract承认:66600Q3377.pdf
输入是一个TIFF文件,质量足够好(见截图)。
有没有办法提高Tesseract准确度?我总是可以将Q改为0,但我担心会出现进一步的意外错误。
答案 0 :(得分:0)
这是Tesseract FAQ:
运行这样的tesseract命令只允许输入图像中的数字:
tesseract imagename outputbase digits