我想从扫描的passaport图像中提取数据
我正在使用PIL进行图像处理过程,使用pytesseract将图像转换为文本
我的问题是我得不到我需要的东西......我得到的是5而不是S ..这样的事情。
我认为问题不在于pytesseract,而在于PIL,因为我没有很好地过滤图像
有人可以帮我从图像中提取,只有黑色像素吗?
或者,如果有人可以帮助我建议我可以使用哪些fiters来获得最佳结果。
谢谢!
我正在尝试这个:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import pytesseract
import requests
from PIL import Image
from PIL import ImageFilter
from StringIO import StringIO
def process_image(url):
image = _get_image(url)
image = image.filter(ImageFilter.SHARPEN)
# image = image.convert('1')
print pytesseract.image_to_string(image)
def _get_image(url):
return Image.open(StringIO(requests.get(url).content))
process_image('https://upload.wikimedia.org/wikipedia/commons/3/3f/Polish_passport_biodata_page.png')