来自Image的Python OCR文本

时间:2016-02-14 15:39:05

标签: python-imaging-library ocr tesseract pillow python-tesseract


我想从扫描的passaport图像中提取数据 我正在使用PIL进行图像处理过程,使用pytesseract将图像转换为文本 我的问题是我得不到我需要的东西......我得到的是5而不是S ..这样的事情。
我认为问题不在于pytesseract,而在于PIL,因为我没有很好地过滤图像 有人可以帮我从图像中提取,只有黑色像素吗? 或者,如果有人可以帮助我建议我可以使用哪些fiters来获得最佳结果。 谢谢! 我正在尝试这个:

#!/usr/bin/python
# -*- coding: utf-8 -*-
import pytesseract
import requests
from PIL import Image
from PIL import ImageFilter
from StringIO import StringIO

def process_image(url):
    image = _get_image(url)
    image = image.filter(ImageFilter.SHARPEN)
#    image = image.convert('1')
    print pytesseract.image_to_string(image)

def _get_image(url):
    return Image.open(StringIO(requests.get(url).content))

process_image('https://upload.wikimedia.org/wikipedia/commons/3/3f/Polish_passport_biodata_page.png')

0 个答案:

没有答案