我正试图从图像中检测阿拉伯数字(阿拉伯语 - 标记)。
尝试过Tesseract OCR它对我没有用(它确实识别阿拉伯语单词但不识别数字) 这是我想从中提取页码的图像(页面顶部)
我尝试使用imagemagick将该图像与较小的已经制作的小图像进行比较,这些图像包含所有书籍编号的可能性,但它也没有用,我认为这需要花费很多时间。
实用的非复杂解决方案是什么? PS:图片来自Android手机,将在Windows或Linux服务器上解析。
答案 0 :(得分:0)
实际上,Tesseract不是您问题的有效解决方案,也不是任何商业阿拉伯语OCR。 您需要有一个可以在样品上训练的自定义OCR解决方案,并指定您的特殊处理规则。
您仍然可以使用Tesseract,但需要以其源代码和培训工具的形式自行构建自定义解决方案。
要自定义Tesseract for Arabic,您可能会发现此链接很有用
http://arabicocr.wordpress.com