尽管我已经在Mac上安装了Tesseract和以下依赖项,但Tika Procesor可以正常处理未扫描的PDF文件,但无法处理已扫描的PDF文档。 我的Java版本-“ 1.8.0_112”,tesseract 3.04.01,leptonica-1.74.1,libjpeg 8d:libpng 1.6.28:libtiff 4.0.7:zlib 1.2.8。
但是在我的朋友Mac中具有上述缺陷的相同代码非常适合扫描的PDF记录。
如何确定Tika处理器不能在我的系统中工作的原因,因为具有相同依赖项的相同代码在其他系统中也可以正常工作? pom.xml具有:
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.16</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.16</version>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-core</artifactId>
<version>1.4.0</version>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-jpeg2000</artifactId>
<version>1.3.0</version>
</dependency>
<dependency>
<groupId>com.levigo.jbig2</groupId>
<artifactId>levigo-jbig2-imageio</artifactId>
<version>2.0</version>
</dependency>
<dependency>
<groupId>org.bouncycastle</groupId>
<artifactId>bcprov-jdk15on</artifactId>
<version>1.59</version>
</dependency>
<dependency>
<groupId>org.bouncycastle</groupId>
<artifactId>bcmail-jdk15on</artifactId>
<version>1.59</version>
</dependency>
<dependency>
<groupId>org.bouncycastle</groupId>
<artifactId>bcpkix-jdk15on</artifactId>
<version>1.59</version>
</dependency>