阿拉伯数字识别

时间:2015-06-17 12:33:47

标签: numbers ocr arabic-support

我正试图从图像中检测阿拉伯数字(阿拉伯语 - 标记)。

尝试过Tesseract OCR它对我没有用(它确实识别阿拉伯语单词但不识别数字) 这是我想从中提取页码的图像(页面顶部)

enter image description here

我尝试使用imagemagick将该图像与较小的已经制作的小图像进行比较,这些图像包含所有书籍编号的可能性,但它也没有用,我认为这需要花费很多时间。

实用的非复杂解决方案是什么? PS:图片来自Android手机,将在Windows或Linux服务器上解析。

1 个答案:

答案 0 :(得分:0)

实际上,Tesseract不是您问题的有效解决方案,也不是任何商业阿拉伯语OCR。 您需要有一个可以在样品上训练的自定义OCR解决方案,并指定您的特殊处理规则。

您仍然可以使用Tesseract,但需要以其源代码和培训工具的形式自行构建自定义解决方案。 要自定义Tesseract for Arabic,您可能会发现此链接很有用 http://arabicocr.wordpress.com