我想知道在
的电话中发生了什么java -jar tika-app-1.5.jar -j -v banana-gif.wbmp
我尝试使用所有可能的图像和自动解析器,但它与从此命令接收的输出不匹配。
{ "Chroma BlackIsZero":"true",
"Content-Length":63552,
"Content-Type":"image/vnd.wap.wbmp",
"Dimension ImageOrientation":"Normal",
"height":534,
"resourceName":"banana-gif.wbmp",
"tiff:ImageLength":534,
"tiff:ImageWidth":950,
"width":950 }
我想在运行此命令时启用完整日志
答案 0 :(得分:1)
第一步 - 找出Tika认为是什么样的文件。如果您已经传递了元数据,可以从元数据中获取,或者使用检测选项从Tika App获取
$ java -jar tika-app-1.5.jar --detect wireframe.pdf
application/pdf
接下来,您需要获取您正在使用的Tika App版本所知道的所有解析器的列表,以及它们处理的mime类型:
$ java -jar tika-app-1.5.jar --list-parser-details | grep -B 2 -A 2 application/pdf
application/vnd.oasis.opendocument.chart
org.apache.tika.parser.pdf.PDFParser
application/pdf
org.apache.tika.parser.pkg.CompressorParser
application/x-bzip
由此,我们发现PDF文件将由org.apache.tika.parser.pdf.PDFParser
对于image/vnd.wap.wbmp
和Tika 1.5的特定情况,我们发现正在使用的解析器是org.apache.tika.parser.image.ImageParser
(注意 - 所有这些都适用于使用Tika-App可执行jar,你无法改变它。如果你使用自己的Java代码中的Tika,你可以有更多的选择,但你也有确保包含所有依赖关系罐以使其正常工作!)