Tesseract不识别阿拉伯字符

时间:2017-01-27 22:32:59

标签: java ocr tesseract tess4j arabic-support

我正在开发一个使用tesseract api来识别板号的应用程序,但是在盘子里有阿拉伯语中的字符。

有人知道如何制作这个吗?

this is an example of numberplate

2 个答案:

答案 0 :(得分:1)

答案 1 :(得分:1)

首先,您需要传递图像以进行预处理和裁剪板周围的区域。然后只需执行二值化以获得更好的 OCR 体验。

Tesseract 无法识别 Tashkeel。但是,对于字符,请使用以下行来检测阿拉伯字符和英文文本。另外,请记得选择合适的页面分割模式。

pytesseract.image_to_string(image,lang='eng+ara')

您可能还需要使用以下命令来查看可以进行哪些配置以对其进行改进。

tesseract --print-parameters