如何启用日志或确定在Apache Tika中调用哪些解析器

时间:2014-04-29 04:57:24

标签: apache-tika

我想知道在

的电话中发生了什么
java -jar tika-app-1.5.jar -j -v banana-gif.wbmp

我尝试使用所有可能的图像和自动解析器,但它与从此命令接收的输出不匹配。

 { "Chroma BlackIsZero":"true",
"Content-Length":63552,
"Content-Type":"image/vnd.wap.wbmp",
"Dimension ImageOrientation":"Normal",
"height":534,
"resourceName":"banana-gif.wbmp",
"tiff:ImageLength":534,
"tiff:ImageWidth":950,
"width":950 }

我想在运行此命令时启用完整日志

1 个答案:

答案 0 :(得分:1)

第一步 - 找出Tika认为是什么样的文件。如果您已经传递了元数据,可以从元数据中获取,或者使用检测选项从Tika App获取

$ java -jar tika-app-1.5.jar --detect wireframe.pdf 
application/pdf

接下来,您需要获取您正在使用的Tika App版本所知道的所有解析器的列表,以及它们处理的mime类型:

$ java -jar tika-app-1.5.jar --list-parser-details | grep -B 2 -A 2 application/pdf
  application/vnd.oasis.opendocument.chart
org.apache.tika.parser.pdf.PDFParser
  application/pdf
org.apache.tika.parser.pkg.CompressorParser
  application/x-bzip

由此,我们发现PDF文件将由org.apache.tika.parser.pdf.PDFParser

处理

对于image/vnd.wap.wbmp和Tika 1.5的特定情况,我们发现正在使用的解析器是org.apache.tika.parser.image.ImageParser

(注意 - 所有这些都适用于使用Tika-App可执行jar,你无法改变它。如果你使用自己的Java代码中的Tika,你可以有更多的选择,但你也有确保包含所有依赖关系罐以使其正常工作!)