我正在尝试完成一个必须包含一些OCR的项目。对于这项工作,我选择了Tesseract OCR,但结果不是最佳的。我试图将字符集限制为1234567890-
,但结果并不好。是否有可以使用的最佳图像尺寸或某种方式来训练Tesseract更好地识别这种字符串?
图片为:
结果tesseract返回的是05175150152,这是不对的,它应该更好,因为图像没有以任何方式修改。我使用tesseract通过PHP和exec使用以下命令:
"C:\Program Files\Tesseract-OCR\tesseract.exe" C:\wamp\www\a
dwords\phones\center_ctl09_ctl04.png sssd -l eng -psm 7 nobatch letters
关于我做错了什么想法?
答案 0 :(得分:3)
对于任何OCR引擎,96 DPI的图像分辨率都很难。尝试将其重新调整为300 DPI,您将获得更好的结果。
此外,JPEG是一种有损图像格式。如果可能的话,使用另一个,如TIFF或PNG。