Tess4j不使用它的tessdata文件夹

时间:2013-08-07 05:59:28

标签: java tesseract

我正在使用tess4j,Tesseract的java包装器。我也安装了正常的Tesseract。我不太确定tess4j是如何工作的,但由于它附带了一个tessdata文件夹,我可以假设您将语言数据文件放在那里。但是,tess4j仅在语言数据文件位于“真实”tessdata文件夹(tesseract附带的文件夹,而不是tess4j)中时才起作用。如果我删除该文件夹,我收到此错误消息:

Error opening data file C:\Program Files\Tesseract-OCR\tessdata/jpn.trained
data
Please make sure the TESSDATA_PREFIX environment variable is set to the par
ent directory of your "tessdata" directory.
Failed loading language 'jpn'
Tesseract couldn't load any languages!
#
# A fatal error has been detected by the Java Runtime Environment:
#
#  EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x631259dc, pid=5108, tid=
10148
#
# JRE version: 7.0_06-b24
# Java VM: Java HotSpot(TM) Client VM (23.2-b09 mixed mode, sharing windows
-x86 )
# Problematic frame:
# C  [libtesseract302.dll+0x59dc]  STRING::strdup+0x467c
#
# Failed to write core dump. Minidumps are not enabled by default on client
 versions of Windows
#
# An error report file with more information is saved as:
# D:\School\Programs\OCRTest\v1.0.0\hs_err_pid5108.log
#
# If you would like to submit a bug report, please visit:
#   http://bugreport.sun.com/bugreport/crash.jsp
# The crash happened outside the Java Virtual Machine in native code.
# See problematic frame for where to report the bug.
#

这是否意味着我需要安装Tesseract才能使用tess4j?为什么?或者maby我的tess4j tessdata文件夹位置错误(目前我的.java文件中,tess4j jars位于我设置了类路径的lib文件夹中)。

4 个答案:

答案 0 :(得分:3)

让你的TESSDATA_PREFIX environment variable指向你的Tess4j的tessdata文件夹。

通常在系统安装期间设置这些变量,但您可以在此处找到解决方案:How do I set environment variables from Java?

您必须在运行您的应用的系统上执行此操作,因为tessdata .dll依赖于此环境变量。

答案 1 :(得分:2)

TESSDATA_PREFIX环境变量,如果已定义,将取代所有内容,包括由initsetDatapath设置的内容。但是,当应用程序可以指定其tessdata文件夹的位置时,这可能会在不久的将来发生变化。

http://code.google.com/p/tesseract-ocr/issues/detail?id=938
https://groups.google.com/forum/#!topic/tesseract-ocr/bkJwI8WmxSw

答案 2 :(得分:1)

对于那些使用maven并且不喜欢使用全局变量的人来说,这对我有用:

File imageFile = new File("C:\\random.png");
Tesseract instance = Tesseract.getInstance();

//In case you don't have your own tessdata, let it also be extracted for you
File tessDataFolder = LoadLibs.extractTessResources("tessdata");

//Set the tessdata path
instance.setDatapath(tessDataFolder.getAbsolutePath());

try {
    String result = instance.doOCR(imageFile);
    System.out.println(result);
} catch (TesseractException e) {
    System.err.println(e.getMessage());
}

发现here,使用maven测试 - > net.sourceforge.tess4j:tess4j:3.4.1,链接使用1.4.1 jar

答案 3 :(得分:0)

也许您没有主项目文件夹中的tessdata文件夹。 此文件夹包含所有tesseract支持的语言(包含.traineddata.bigrams.fold.lm.nn.params,{{ 1}}和.size个扩展名) 如果您没有,请按照以下步骤操作:

  1. github.com/tesseract-ocr/tessdata下载tessdata-master文件夹(从下载ZIP按钮)
  2. 解压缩主项目文件夹中的.word-freq文件的内容
  3. tessdata-master.zip重命名为tessdata-master
  4. 运行您的java项目并测试它是否有效。至少这对我有用。