应用错误收集

时间：2010-10-24 15:14:30

标签： php ocr

我正试图从图片中提取一些1-99的数字。我已经尝试了几种使用PHP的OCR方法，但最终我的脚本会失败，因为这些数字偶尔会向左或向右旋转5％。这使得图片无法识别。

我现在安装了Ocropus http://code.google.com/p/ocropus/作为测试。不幸的是，这并不是每次给我正确的数字。这让我觉得我的图片不够优化。

有没有人有一些提示/想法如何优化数字的可读性？我也很感激如何从图片中找到数字。

答案 0 :(得分：1)

Tesseract / Ocropus似乎对这种倾斜感到困惑，因为同一行上的多个倾斜数字可能会混淆Tesseract或Ocropus。

你是否将整个图像作为数字网格传递？您是否尝试将每个盒子（数字）单独作为单独的图像发送到OCR引擎？你可能会发现你会得到更好的结果。

您是否尝试过其他任何OCR引擎？你是否要求它是开源的？

我通过更便宜的商用OCR引擎运行图像，所有数字都被正确识别。因此，另一个选择是使用C＃或C ++代码和接口快速包装商业OCR引擎，以提供更好的结果。

答案 1 :(得分：-1)

为您的解决方案使用外部（基于Web）API是否可以接受？如果是，请考虑http://www.wisetrend.com/wisetrend_ocr_cloud.shtml（OCR的REST API）

中描述的Deskew和AnalysisMode参数

（另外，使用API时，请确保在输入图像标题中正确设置图像分辨率 - 它可以使识别质量产生差异。）