Question

尽管我已经在Mac上安装了Tesseract和以下依赖项，但Tika Procesor可以正常处理未扫描的PDF文件，但无法处理已扫描的PDF文档。我的Java版本-“ 1.8.0_112”，tesseract 3.04.01，leptonica-1.74.1，libjpeg 8d：libpng 1.6.28：libtiff 4.0.7：zlib 1.2.8。

但是在我的朋友Mac中具有上述缺陷的相同代码非常适合扫描的PDF记录。

如何确定Tika处理器不能在我的系统中工作的原因，因为具有相同依赖项的相同代码在其他系统中也可以正常工作？ pom.xml具有：

<dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-core</artifactId>
      <version>1.16</version>
    </dependency>
    <dependency>
       <groupId>org.apache.tika</groupId>
       <artifactId>tika-parsers</artifactId>
       <version>1.16</version>
    </dependency>
    <dependency>
       <groupId>com.github.jai-imageio</groupId>
       <artifactId>jai-imageio-core</artifactId>
       <version>1.4.0</version>
    </dependency>
    <dependency>
       <groupId>com.github.jai-imageio</groupId>
       <artifactId>jai-imageio-jpeg2000</artifactId>
       <version>1.3.0</version>
    </dependency>
   <dependency>
      <groupId>com.levigo.jbig2</groupId>
      <artifactId>levigo-jbig2-imageio</artifactId>
      <version>2.0</version>
   </dependency>
   <dependency>
     <groupId>org.bouncycastle</groupId>
     <artifactId>bcprov-jdk15on</artifactId>
     <version>1.59</version>
   </dependency>
   <dependency>
      <groupId>org.bouncycastle</groupId>
      <artifactId>bcmail-jdk15on</artifactId>
      <version>1.59</version>
   </dependency>
  <dependency>
     <groupId>org.bouncycastle</groupId>
     <artifactId>bcpkix-jdk15on</artifactId>
     <version>1.59</version>
  </dependency>

如何确定系统中Tika处理器无法处理OCR文档（扫描的PDF文档）的原因？

0 个答案: