我正试图从图片中提取一些1-99的数字。我已经尝试了几种使用PHP的OCR方法,但最终我的脚本会失败,因为这些数字偶尔会向左或向右旋转5%。这使得图片无法识别。
我现在安装了Ocropus http://code.google.com/p/ocropus/作为测试。不幸的是,这并不是每次给我正确的数字。这让我觉得我的图片不够优化。
有没有人有一些提示/想法如何优化数字的可读性?我也很感激如何从图片中找到数字。
答案 0 :(得分:1)
Tesseract / Ocropus似乎对这种倾斜感到困惑,因为同一行上的多个倾斜数字可能会混淆Tesseract或Ocropus。
你是否将整个图像作为数字网格传递?您是否尝试将每个盒子(数字)单独作为单独的图像发送到OCR引擎?你可能会发现你会得到更好的结果。
您是否尝试过其他任何OCR引擎?你是否要求它是开源的?
我通过更便宜的商用OCR引擎运行图像,所有数字都被正确识别。因此,另一个选择是使用C#或C ++代码和接口快速包装商业OCR引擎,以提供更好的结果。
答案 1 :(得分:-1)
为您的解决方案使用外部(基于Web)API是否可以接受? 如果是,请考虑http://www.wisetrend.com/wisetrend_ocr_cloud.shtml(OCR的REST API)
它可以自动校正图像旋转;尝试调整http://www.wisetrend.com/WiseTREND_Online_OCR_API_v2.0.htm
中描述的Deskew和AnalysisMode参数(另外,使用API时,请确保在输入图像标题中正确设置图像分辨率 - 它可以使识别质量产生差异。)