Question

我正在尝试完成一个必须包含一些OCR的项目。对于这项工作，我选择了Tesseract OCR，但结果不是最佳的。我试图将字符集限制为1234567890-，但结果并不好。是否有可以使用的最佳图像尺寸或某种方式来训练Tesseract更好地识别这种字符串？

图片为： Phone

结果tesseract返回的是05175150152，这是不对的，它应该更好，因为图像没有以任何方式修改。我使用tesseract通过PHP和exec使用以下命令：

"C:\Program Files\Tesseract-OCR\tesseract.exe" C:\wamp\www\a
dwords\phones\center_ctl09_ctl04.png sssd -l eng -psm 7 nobatch letters

关于我做错了什么想法？

Answer 1

对于任何OCR引擎，96 DPI的图像分辨率都很难。尝试将其重新调整为300 DPI，您将获得更好的结果。

此外，JPEG是一种有损图像格式。如果可能的话，使用另一个，如TIFF或PNG。