OneNote支持Apache Tika解析器

时间:2016-12-21 21:30:11

标签: java apache-tika

我希望能够使用apache tika检测.one,.onetoc,.onetoc2文件的mime类型。但是,从他们的文档https://tika.apache.org/1.14/formats.html似乎没有它的支持。使用Tika的纯文件解析技术我总是得到application / octet-stream而不是application / onenote。 它们支持基于扩展和基于名称的内省来确定mime类型,但这是不可靠的,因为我总是可以命名文件* .one,它会将mime类型作为'application / onenote'抛出,这是不正确的。 任何可用库的指针都可以轻松检测给定文件是否为onenote类型或者是否存在我在Tika中丢失的内容?

1 个答案:

答案 0 :(得分:2)

对于mime-magic驱动的OneNote文件检测,您需要等待Apache Tika 1.15,或者获取包含commit aa448a3b7e61f9a46efd1bf3f2ac72e6a3852d8f的nightly / git构建。

你可能也对TIKA-2224感兴趣,这是一个错误。请注意,截至2016年12月,我们仍需要一些更小的样本测试OneNote文件用于检测测试。如果可以的话,请将它们添加到bug中。

此外,目前唯一的OneNote支持是针对.one.onetoc格式的基于魔力的检测。没有可用的解析器,请参阅this Tika mailing list thread以获取有关添加Parser支持所涉及的信息和指示。