Question

嗨，我是python和tesseract的新手。我正在使用anaconda发行版并尝试使用pytesseract-ocr，当我尝试从图像中获取数据时，它会给我以下错误：

tesseract imageSample1.jpg test.txt digits
// output 
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /anaconda/envs/_build/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

首先，没有这样的/anaconda/envs/_build/share/tessdata/目录。我有anaconda3文件夹。我从git下载了end.traindata。但不确定将数据放在何处。难道我做错了什么。需要一些帮助。谢谢。

Answer 1

Tesseract将首先搜索/ usr / share / tessdata。

如果您希望tesseract在其他地方搜索，您可以执行以下操作之一

将环境变量TESSDATA_PREFIX设置为放置数据的路径。
使用--tessdata-dir=<pathToYourData>

Answer 2

您是否尝试过从命令窗口执行命令：tesseract，您应该得到如下输出：

如果没有，那么您应该在您的计算机tesseract download

上安装任何版本的tesseract

注意：要使pytesseract工作，您需要在系统中安装tessearct。

希望这会有所帮助：）

无法找到Tesseract的tessdata

2 个答案: