debian Tesseract TESSDATA_PREFIX问题

时间:2019-04-17 12:19:00

标签: debian tesseract

我当前正在使用Tesseract的Python程序运行错误。现在,我可以在Ubuntu上进行测试,并且没有问题(Tesseract v4在官方仓库中)。我现在想在Debian下尝试它,并且因为官方仓库没有Tesseract的v4,所以我必须从Tesseract的源代码进行编译。我是这样的:

git clone -b4.0.0 https://github.com/tesseract-ocr/tesseract
cd tesseract
mkdir build && cd build
cmake .. && make
make install

然后我这样做:

export LD_LIBRARY_PATH=/usr/local/lib  
export TESSDATA_PREFIX=/usr/share/tesseract-ocr/

我的tessdata前缀包含所有受过训练的语言,但是我遇到以下错误:

  

pytesseract.pytesseract.TesseractError:(1,'打开数据文件./fra.traineddata时出错,请确保将TESSDATA_PREFIX环境变量设置为您的“ tessdata”目录。加载语言\'fra \'Tesseract无法\'失败无法加载任何语言!无法初始化tesseract。')

我尝试将TESSDATA_PREFIX放在〜/ .profile上,将其添加到同一文件的PATH变量中,但是仍然存在问题

预先感谢您的帮助

1 个答案:

答案 0 :(得分:0)

我遇到了同样的问题,我环顾四周,然后意识到问题实际上很简单,答案就在那里-错误消息明确指出了文件的预期位置。 tessdata的父文件夹。

请确保将TESSDATA_PREFIX环境变量设置为“ tessdata”目录的父目录

通过将tessdata文件夹/usr/share/tesseract-ocr/4.00/tessdata中的语言文件和培训数据(在我的情况下为eng.traineddata和osd.traineddata)复制到上一级父文件夹。

似乎配置文件期望文件向上一级,因此/usr/share/tesseract-ocr/4.00/

在我看来,这些是安装Ubuntu的正确位置