我为windows安装了tesseract-OCR,它位于我系统中的C:\ Program Files \ Tesseract-OCR路径中。
我通过在PATH变量中添加C:\ Program Files \ Tesseract-OCR来设置环境变量。
我还将系统变量中的TESSDATA_PREFIX设置为上面的tesseract位置。
但是,当我尝试运行命令" tesseract some path \ image.tif somepath \ output"时,它会给出消息"' tesseract'不被视为内部或外部命令"。
当我从安装tesseract的位置运行相同的命令时,它工作正常,但我需要在环境变量中设置它,因为它也允许PYOCR包装器识别它。
PYOCR目前正在提供" pyocr.get_available_tools()[0]"作为空列表。
非常感谢任何帮助。
答案 0 :(得分:0)
也许我的答案有点晚了,但是我将在几分钟内完成设置。和您一样,我使用的是PYOCR库,一开始使用pyocr.get_available_tools()
时会得到一个空列表。
我正在Windows 10笔记本电脑上运行它。
首先,我从此处在Alpha版本4中安装了 Tesseract :
https://github.com/UB-Mannheim/tesseract/wiki,然后在Windows用户PATH变量中添加位置。从这里开始,运行新的命令行,并检查是否检测到tesseract
工具,如果没有,则说明您的环境配置不正确!
然后,我使用简单的pip pyocr
安装了 PyOCR ,并使用了以下导入
在使用pyocr函数之前:
import pyocr
import pyocr.builders
编辑: 我查看了PYOCR的当前源文件,发现了这一点:
def is_available():
_set_environment()
return util.is_on_path(TESSERACT_CMD)
PyOCR只是在os Path变量中寻找tesseract.exe,所以我认为您只需要解决提及问题就可以了。
编辑2: 我用UB Mannheim版本更新了下载链接。似乎对我的数据更有效。另外,我降级到Tesseract 3,因为4.0 alpha版本不支持很多标志。
希望它可以有所帮助, 最好的问候
答案 1 :(得分:-1)
请检查Tesseract-OCR的正确安装路径。设置正确的路径,即C:\Program Files (x86)\Tesseract-OCR
为我工作。