与OCR引擎模式配合使用时,Tesseract 4无法加载任何语言-“旧版+ LSTM引擎”(--OEM 2)

时间:2019-04-15 12:59:17

标签: ocr lstm tesseract

我认为此问题仅与带有LSTM支持的Tesseract 4有关。当我使用64位Windows系统时,我已经从此处下载了64-bit windows executable-https://github.com/UB-Mannheim/tesseract/wiki

它具有以下OCR引擎模式:

  • 仅0个旧版引擎。
  • 仅1个神经网络LSTM引擎。
  • 2个旧版+ LSTM引擎。
  • 3默认设置,根据可用情况而定。

它可用于除 2 以外的所有模式。


与--oem 1一起运行时

tesseract --oem 1 1.jpg 1

结果:

Tesseract Open Source OCR Engine v4.0.0.20190314 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 561
Detected 5 diacritics

并创建具有相应OCR结果的文件 1.txt


与--oem 2一起运行时

tesseract --oem 2 1.jpg 1

结果:

Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

并且不生成任何输出。


我认为该错误将与语言安装有关,但

tesseract --list-langs

这给了我以下结果

List of available languages (2):
eng
osd

我什至手动检查了 tessdata 文件夹,这是同一张屏幕截图

enter image description here

其中明确指出我已经有 eng 语言。

  

有人可以帮助我解决不允许我使用的确切问题吗?   旧版+ LSTM引擎(--oem 2)模式。

1 个答案:

答案 0 :(得分:2)

是的,您使用的语言是 eng ,但仅支持LSTM。如果您想获得LSTM&Legacy支持,则需要从tessdata repository

下载数据