从使用tesseract格式良好的图像中提取数字

时间:2015-12-10 18:03:12

标签: python ocr tesseract

我有以下号码:

enter image description here

我正在使用this问题中记录的tesseract。

我得到的结果是" \ n",而不是预期的7000。

在尝试解析数字时,有没有人遇到过这个问题?

我尝试了以下内容:

>>> image = Image.open("C:/temp/download.png")
>>> image = image.convert('RGB')
>>> image = image.filter(ImageFilter.BLUR)
>>> print image_to_string(image)


>>>image.save("C:/temp/dl1.png")

哪个给了我

enter image description here

正确方向的步骤如下:

from PIL import ImageFilter
import sys
from PIL import Image
import PIL.ImageOps    
import pytesseract
import time


image=Image.open("C:/temp/download.png")
image.load() 
background = Image.new("RGB", image.size, (255, 255, 255))
background.paste(image, mask=image.split()[3]) # 3 is the alpha channel
background.save('C:/temp/foo.jpg', 'JPEG', quality=80)


img =Image.open('C:/temp/foo.jpg')
img.load()
print img
print '-------------------'
i = pytesseract.image_to_string(img)
print i

但现在我here

1 个答案:

答案 0 :(得分:0)

tesseract_cmd = 'C:\\Tesseract-OCR\\tesseract'

在pytesseract.py中,将tesseract_cmd更改为上面的行或路径到tesseract.It将正常工作。