Tesseract OCR在TIFF文件上失败

时间:2018-09-16 03:06:04

标签: python ocr tesseract python-tesseract

我有一个多页.tif文件,我正在尝试使用Tesseract OCR从其中提取文本,但出现此错误

  

TypeError:不支持的图像对象

代码

from PIL import Image
import pytesseract

img = Image.open('Group 1/1_CHE_MDC_1.tif')
text = pytesseract.image_to_string(img.seek(0))  # OCR on 1st Page
text = ' '.join(text.split())
print(text)

错误

enter image description here

知道为什么会发生

2 个答案:

答案 0 :(得分:1)

import {Component, OnDestroy, OnInit} from '@angular/core'; import { Observable } from 'rxjs/Observable'; import 'rxjs/add/observable/interval'; import 'rxjs/add/operator/take'; 没有返回值,因此您实际上正在运行:

Image.seek

代替:

pytesseract.image_to_string(None)

答案 1 :(得分:1)

我有一个相同的问题,我尝试了下面的代码,它对我有用:-

导入glob
导入pytesseract 导入操作系统

os.chdir(“设置您的Tesseract-OCR .exe文件路径”

b = ''
for i in glob.glob('Fullpath of your image directory/*.tif'):  <-- you can give *.jpg extension in case of jpg image
    if  glob.glob('*.tif'):
        b = b +  (pytesseract.image_to_string(i))
print(b)

学习愉快!