应用错误收集

时间：2015-06-17 12:33:47

标签： numbers ocr arabic-support

我正试图从图像中检测阿拉伯数字（阿拉伯语 - 标记）。

尝试过Tesseract OCR它对我没有用（它确实识别阿拉伯语单词但不识别数字）这是我想从中提取页码的图像（页面顶部）

enter image description here

我尝试使用imagemagick将该图像与较小的已经制作的小图像进行比较，这些图像包含所有书籍编号的可能性，但它也没有用，我认为这需要花费很多时间。

实用的非复杂解决方案是什么？ PS：图片来自Android手机，将在Windows或Linux服务器上解析。

答案 0 :(得分：0)

实际上，Tesseract不是您问题的有效解决方案，也不是任何商业阿拉伯语OCR。您需要有一个可以在样品上训练的自定义OCR解决方案，并指定您的特殊处理规则。

您仍然可以使用Tesseract，但需要以其源代码和培训工具的形式自行构建自定义解决方案。要自定义Tesseract for Arabic，您可能会发现此链接很有用 http://arabicocr.wordpress.com