我正在使用Apache Tika来OCR文件。使用PDF文件可以正常使用,但是使用djvu是个问题。从版本1.14开始,Tika似乎支持Djvu。有什么想法可以解决这个问题吗?
D:\java -jar tika-app-1.18.jar -eUTF-8 test.djvu
返回
sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNING: J2KImageReader not loaded. JPEG2000 files will not be processed.
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.
sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNING: org.xerial's sqlite-jdbc is not loaded.
Please provide the jar on your classpath to parse sqlite files.
See tika-parsers/pom.xml for the correct version.
<?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml"
>
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.EmptyParser"/>
<meta name="resourceName" content="test.djvu"/>
<meta name="Content-Length" content="23038658"/>
<meta name="Content-Type" content="image/vnd.djvu"/>
<title/>
</head>
<body/></html>
答案 0 :(得分:0)
刚刚检查了当前的 (1.26) 来源。似乎从 1.14 开始,Apache Tika 能够检测 djvu 标头并报告该文件是 djvu 文档。这正是它所做的:
<meta name="resourceName" content="test.djvu"/>
<meta name="Content-Length" content="23038658"/>
<meta name="Content-Type" content="image/vnd.djvu"/>
输出中的其他错误和警告与 djvu 无关。
Apache Tika 没有用于 djvu 的解析器,因此除了文件类型检测之外什么也做不了。自 1.14 以来,有关 djvu 支持的任何内容都没有改变。所以,Apache Tika 对 djvu 没用。人们可能会认为它根本不支持这种格式。