我当前正在使用Tesseract的Python程序运行错误。现在,我可以在Ubuntu上进行测试,并且没有问题(Tesseract v4在官方仓库中)。我现在想在Debian下尝试它,并且因为官方仓库没有Tesseract的v4,所以我必须从Tesseract的源代码进行编译。我是这样的:
git clone -b4.0.0 https://github.com/tesseract-ocr/tesseract
cd tesseract
mkdir build && cd build
cmake .. && make
make install
然后我这样做:
export LD_LIBRARY_PATH=/usr/local/lib
export TESSDATA_PREFIX=/usr/share/tesseract-ocr/
我的tessdata前缀包含所有受过训练的语言,但是我遇到以下错误:
pytesseract.pytesseract.TesseractError:(1,'打开数据文件./fra.traineddata时出错,请确保将TESSDATA_PREFIX环境变量设置为您的“ tessdata”目录。加载语言\'fra \'Tesseract无法\'失败无法加载任何语言!无法初始化tesseract。')
我尝试将TESSDATA_PREFIX放在〜/ .profile上,将其添加到同一文件的PATH变量中,但是仍然存在问题
预先感谢您的帮助
答案 0 :(得分:0)
我遇到了同样的问题,我环顾四周,然后意识到问题实际上很简单,答案就在那里-错误消息明确指出了文件的预期位置。 tessdata的父文件夹。
请确保将TESSDATA_PREFIX环境变量设置为“ tessdata”目录的父目录
通过将tessdata文件夹/usr/share/tesseract-ocr/4.00/tessdata中的语言文件和培训数据(在我的情况下为eng.traineddata和osd.traineddata)复制到上一级父文件夹。
似乎配置文件期望文件向上一级,因此/usr/share/tesseract-ocr/4.00/
在我看来,这些是安装Ubuntu的正确位置