无法找到Tesseract的tessdata

时间:2017-12-02 12:43:03

标签: python git pytesser

嗨,我是python和tesseract的新手。我正在使用anaconda发行版并尝试使用pytesseract-ocr,当我尝试从图像中获取数据时,它会给我以下错误:

tesseract imageSample1.jpg test.txt digits
// output 
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /anaconda/envs/_build/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

首先,没有这样的/anaconda/envs/_build/share/tessdata/目录。我有anaconda3文件夹。我从git下载了end.traindata。但不确定将数据放在何处。难道我做错了什么。需要一些帮助。谢谢。

2 个答案:

答案 0 :(得分:1)

Tesseract将首先搜索/ usr / share / tessdata。

如果您希望tesseract在其他地方搜索,您可以执行以下操作之一

  • 将环境变量TESSDATA_PREFIX设置为放置数据的路径。
  • 使用--tessdata-dir=<pathToYourData>
  • 致电tesseract

答案 1 :(得分:0)

您是否尝试过从命令窗口执行命令:tesseract,您应该得到如下输出: tesseract output

如果没有,那么您应该在您的计算机tesseract download

上安装任何版本的tesseract

注意:要使pytesseract工作,您需要在系统中安装tessearct。

希望这会有所帮助:)