无法使用pytesseract从图像中提取文本

时间:2017-07-01 17:04:23

标签: python-3.x pytesser

我正在编写一个python脚本,使用pytesseract从文件中提取图像。但是当我运行脚本时,我收到以下错误。

from PIL import Image
from pytesseract import image_to_string
import os

tessdata_dir_config = '--tessdata-dir "C:\\Ranit\\Personal\\PycharmProjects\\modlog\\pdfs\\"'

tgtfile = "C:\Ranit\Personal\PycharmProjects\modlog\pdfs\IMG_20170331_194534.jpg"

if os.path.isfile(tgtfile):
    imgtxt = image_to_string(image='IMG_20170331_194534.jpg',config=tessdata_dir_config)
    print(imgtxt)
else:
    print('File not found')

收到错误:

C:\Python36\python.exe C:/Ranit/Personal/PycharmProjects/modlog/extracttext.py
Traceback (most recent call last):
  File "C:/Ranit/Personal/PycharmProjects/modlog/extracttext.py", line 10, in <module>
    imgtxt = image_to_string(image='IMG_20170331_194534.jpg',config=tessdata_dir_config)
  File "C:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 117, in image_to_string
    image.save(input_file_name)
AttributeError: 'str' object has no attribute 'save'

请你指出我在这里做的错误。

1 个答案:

答案 0 :(得分:0)

终于搞定了......我没有在我的工作站中安装tesseract库,因为上面的代码无效。确保安装tesseract库和相应的依赖项以便能够使用pytesseract。