裸骨Tika型探测器和Apache POI

时间:2015-04-19 23:19:08

标签: java maven apache-poi apache-tika

我正在使用Apache Tika,1.7和Apache POI从Maven构建的项目中的.doc和docx文档中提取文本。出于某种原因,我得到了

java.lang.NoSuchMethodError: org.apache.poi.util.IOUtils.calculateChecksum

错误。如Apache POI FAQ中所述,这是由版本问题引起的。因此,显而易见的解决方案是升级POI或其他东西。这个问题是我在tika-parsers包中使用与tika捆绑在一起的POI版本。这是因为我使用的是Tika型探测器,这是我使用的Tika的唯一部分(POI除外)。问题是,如果我只使用tika-core软件包并在maven pom.xml中单独声明POI依赖项,那么Tika检测器将停止检测容器类型,例如.docx文件,因为tika-parsers软件包对于检测器,如here所述。那么,我该如何解决这个问题呢?我想用tika进行准确的类型检测,但我也想在Tika之外使用Apache POI。

由于

1 个答案:

答案 0 :(得分:2)

我不知道你的POM是什么样的,但在大多数情况下,可以通过排除违规的传递依赖来处理这类问题。

它看起来像这样:

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.7</version>
    <exclusions>
        <exclusion>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
        </exclusion>
    </exclusions> 
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>3.11</version>
</dependency>

然而,看看Tika 1.7的POM,它已经取决于POI 3.11,这是目前最新的版本,并且确实包含了所需的方法。所以,很有可能,你在某个地方有另一个依赖,它会引入旧版本的POI。

您可以使用Maven dependency plugin查找违规库,并使用上述技巧解决冲突。