OCR用Tesseract读取电话号码

时间:2012-05-01 17:01:34

标签: php ocr tesseract

我正在尝试完成一个必须包含一些OCR的项目。对于这项工作,我选择了Tesseract OCR,但结果不是最佳的。我试图将字符集限制为1234567890-,但结果并不好。是否有可以使用的最佳图像尺寸或某种方式来训练Tesseract更好地识别这种字符串?

图片为:Phone

结果tesseract返回的是05175150152,这是不对的,它应该更好,因为图像没有以任何方式修改。我使用tesseract通过PHP和exec使用以下命令:

"C:\Program Files\Tesseract-OCR\tesseract.exe" C:\wamp\www\a
dwords\phones\center_ctl09_ctl04.png sssd -l eng -psm 7 nobatch letters

关于我做错了什么想法?

1 个答案:

答案 0 :(得分:3)

对于任何OCR引擎,96 DPI的图像分辨率都很难。尝试将其重新调整为300 DPI,您将获得更好的结果。

此外,JPEG是一种有损图像格式。如果可能的话,使用另一个,如TIFF或PNG。