没有从图片

时间:2018-05-07 05:24:24

标签: machine-learning computer-vision ocr tesseract hindi

我想使用 pytesseract 库从图像中识别印地语文本。

我尝试了什么

以下脚本可识别整体文字,但我没有将其用于印地语。它只识别典型的欧洲/美国角色:

# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract


pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
#im = Image.open("/tesserocr/hindisample.png")

#im = Image.open("C:/shubhamprojectwork/ocr/tesseract-python-master/sample1.jpg")
im = Image.open("C:/shubhamprojectwork/ocr/tesseract-python-master/hindisample.png")


text = pytesseract.image_to_string(im, lang = 'hin')

print(len(text))
import codecs
f = codecs.open('bla.txt', encoding='utf-8', mode='w')
f.write(text)
f.close()
file1 = open("bla.txt", encoding='utf-8',mode="r+")
file1.seek(0) 

print ("Output of Readline function is ")
print (file1.readline())

我想要文字的图片在这里

hindisample.png

正在生成这些文本

Wfififirifilfiafiiaflmtfimfi

WWfiRWWEIB-‘E

fiafiimfiifimfiafitw

fifiéfififimfiafiamfifiw

1 个答案:

答案 0 :(得分:0)

您可能没有印地语训练的数据。尝试使用此命令重新安装tesseract库 sudo apt-get install tesseract-ocr-hin