如何使用python从扫描的文档中提取文本

时间:2017-04-12 08:01:53

标签: python image-processing machine-learning stanford-nlp tesseract

我试过这个例子,https://github.com/madmaze/pytesseract

import Image
import pytesseract

print pytesseract.image_to_string(Image.open('image1.png'))

获取错误:     文件" /usr/lib/python2.7/subprocess.py",第1327行,在_execute_child中引发child_exception OSError:[Errno 2]没有这样的文件或目录

有没有其他方法从扫描文档中提取文本?

2 个答案:

答案 0 :(得分:0)

我发现了这个问题,

更新:

/usr/local/lib/python2.7/dist-packages/pytesseract/pytesseract.py

tesseract_cmd = 'tesseract' =====>> tesseract_cmd = '/usr/local/bin/tesseract'

现在正在努力。

答案 1 :(得分:-2)

使用以下命令

sudo apt-get install tesseract-ocr