Tesseract对于阿拉伯语单词/字母不返回任何内容

时间:2019-02-19 10:14:32

标签: ocr tesseract arabic

我已经安装了Pytesseract,它在法语/英语文本以及数字上都可以正常工作。但是,当我尝试阅读任何阿拉伯文字/字母时,它不会返回任何内容。

这是我使用的代码:

try:
    from PIL import Image
except ImportError:
    import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"

print(pytesseract.image_to_string(Image.open('maroc.jpg'), lang='ara'))

这是我要阅读的字母د

د

如果有人能够使用其他方法阅读它,请帮助,谢谢!

2 个答案:

答案 0 :(得分:0)

代码:

from pytesseract import image_to_string 
from PIL import Image
import pytesseract

print(pytesseract.image_to_pdf_or_hocr('test.png', lang='ara', extension='hocr'))

here中获取新的阿拉伯语tessdata:

答案 1 :(得分:0)

如果您想识别阿拉伯语单词,请从下面的链接下载阿拉伯语训练模型,然后将其保存在您的 Tesseract 文件夹中的位置

C:\Program Files\Tesseract-OCR\tessdata 要么 C:\Program Files (x86)\Tesseract-OCR\tessdata

arabic_tesseract_trained