Python:图像到文本

时间:2017-06-15 15:47:59

标签: python opencv python-imaging-library ocr

我正在尝试使用openCV和python来构建一个基本脚本来从图像中读取文本。

现在我对这个错误表示震惊,该错误表明找不到文件,问题是我无法理解这个追溯。哪个文件不存在?任何图书馆或其他问题。 它写的是thresh.png和removednoise.png。

我正在使用python 3.6,如果有任何兼容性问题,请告诉我。 如果需要更多信息,请告诉我。

指点方向帮助我。提前致谢

这是我的代码。

import cv2
import numpy as np
import pytesseract
from PIL import Image

#src_path ="D:/python'/practice"

def get_string(img_path):
    img = cv2.imread(img_path)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    kernel = np.ones((1, 1), np.uint8)
    img = cv2.dilate(img, kernel, iterations=1)
    img = cv2.erode(img, kernel, iterations=1)

    cv2.imwrite("removed_noise.png", img)
    img = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2)
    cv2.imwrite("thres.png", img)
    result = pytesseract.image_to_string(Image.open("thres.png"))

    return result


print ('------------TEXT------------')

print (get_string("imag1.png"))

错误讯息:

D:\python'\practice>python OCR_text.py
------------TEXT------------
Traceback (most recent call last):
  File "OCR_text.py", line 25, in <module>
    print (get_string("imag1.png"))
  File "OCR_text.py", line 18, in get_string
    result = pytesseract.image_to_string(Image.open("thres.png"))
  File "D:\Python\lib\site-packages\pytesseract\pytesseract.py", line 122, in image_to_string
    config=config)
  File "D:\Python\lib\site-packages\pytesseract\pytesseract.py", line 46, in run_tesseract
    proc = subprocess.Popen(command, stderr=subprocess.PIPE)
  File "D:\Python\lib\subprocess.py", line 707, in __init__
    restore_signals, start_new_session)
  File "D:\Python\lib\subprocess.py", line 990, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] The system cannot find the file specified

1 个答案:

答案 0 :(得分:0)

FileNotFoundErrorsubprocess引发,它正在尝试启动外部进程。找不到它试图启动的命令。您可以在回溯中看到几行:

File "D:\Python\lib\site-packages\pytesseract\pytesseract.py", line 46, in run_tesseract
    proc = subprocess.Popen(command, stderr=subprocess.PIPE)

要使用pytesseract,您需要在系统上安装其他一些依赖项,请参阅此部分:

https://pypi.python.org/pypi/pytesseract/0.1

  

安装:

     
      
  • Python-tesseract需要python 2.5或更高版本。

  •   
  • 您需要Python Imaging Library(PIL)。在Debian / Ubuntu下,这是“python-imaging”包。

  •   
  • http://code.google.com/p/tesseract-ocr/安装google tesseract-ocr。你必须能够调用   tesseract命令为“tesseract”。如果不是这样的话,那就是   例如因为tesseract不在你的PATH中,你将不得不改变   'tesseract.py'顶部的“tesseract_cmd”变量。
  •   

尝试在命令shell中键入tesseract,如果它不起作用,那么您还没有设置为使用该包。按照他们的安装说明进行操作。