如何确定系统中Tika处理器无法处理OCR文档(扫描的PDF文档)的原因?

时间:2018-09-25 04:55:49

标签: pdf apache-tika

尽管我已经在Mac上安装了Tesseract和以下依赖项,但Tika Procesor可以正常处理未扫描的PDF文件,但无法处理已扫描的PDF文档。 我的Java版本-“ 1.8.0_112”,tesseract 3.04.01,leptonica-1.74.1,libjpeg 8d:libpng 1.6.28:libtiff 4.0.7:zlib 1.2.8。

但是在我的朋友Mac中具有上述缺陷的相同代码非常适合扫描的PDF记录。

如何确定Tika处理器不能在我的系统中工作的原因,因为具有相同依赖项的相同代码在其他系统中也可以正常工作? pom.xml具有:

<dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-core</artifactId>
      <version>1.16</version>
    </dependency>
    <dependency>
       <groupId>org.apache.tika</groupId>
       <artifactId>tika-parsers</artifactId>
       <version>1.16</version>
    </dependency>
    <dependency>
       <groupId>com.github.jai-imageio</groupId>
       <artifactId>jai-imageio-core</artifactId>
       <version>1.4.0</version>
    </dependency>
    <dependency>
       <groupId>com.github.jai-imageio</groupId>
       <artifactId>jai-imageio-jpeg2000</artifactId>
       <version>1.3.0</version>
    </dependency>
   <dependency>
      <groupId>com.levigo.jbig2</groupId>
      <artifactId>levigo-jbig2-imageio</artifactId>
      <version>2.0</version>
   </dependency>
   <dependency>
     <groupId>org.bouncycastle</groupId>
     <artifactId>bcprov-jdk15on</artifactId>
     <version>1.59</version>
   </dependency>
   <dependency>
      <groupId>org.bouncycastle</groupId>
      <artifactId>bcmail-jdk15on</artifactId>
      <version>1.59</version>
   </dependency>
  <dependency>
     <groupId>org.bouncycastle</groupId>
     <artifactId>bcpkix-jdk15on</artifactId>
     <version>1.59</version>
  </dependency>

0 个答案:

没有答案