Apache Tika:在tika服务器上为opennlp模型设置类路径

时间:2018-08-20 17:09:16

标签: apache-tika

我似乎无法为tika-server设置类路径,以便正确检测到opennlp模型。

我已按照此处的说明进行操作:

https://wiki.apache.org/tika/TikaAndNER

(用app代替-server,看起来好像它包含了所需的所有内容)

我创建了以下文件夹结构

tika
`-- tika-ner-resources
    `-- org
        `-- apache
           `-- tika
              `-- parser
                  `-- ner
                    `-- opennlp
                       |-- ner-location.bin
                       |-- ner-organization.bin
                       `-- ner-person.bin

正在运行

java -classpath tika / tika-ner-resources -jar tika-server-1.18.jar --config /etc/tika-config.xml -enableUnsecureFeatures -h 0.0.0.0

并发布 {{curl -v -XPUT --data-binary @ test.pdf http://localhost:9998/tika-标题“接受:文本/纯文本”-标题“内容类型:应用程序/ pdf”}}

结果

INFO将加载,实例化和绑定org.apache.tika.parser.ner.opennlp.OpenNLPNERecogniser的实例 WARN无法使用类加载器从org / apache / tika / parser / ner / opennlp / ner-location.bin中找到模型 信息位置NER:可以提供服务吗?假 WARN无法使用类加载器从org / apache / tika / parser / ner / opennlp / ner-organization.bin中找到模型 信息组织者:可以提供服务吗?假 WARN无法使用类加载器从org / apache / tika / parser / ner / opennlp / ner-date.bin中找到模型 INFO DATE NER:是否可以提供服务?假 WARN无法使用类加载器从org / apache / tika / parser / ner / opennlp / ner-money.bin中找到模型 INFO MONEY NER:是否可以提供服务?假 WARN无法使用类加载器从org / apache / tika / parser / ner / opennlp / ner-person.bin中找到模型 信息人:可以提供服务吗?假 WARN无法使用类加载器从org / apache / tika / parser / ner / opennlp / ner-percentage.bin中找到模型 信息百分比:可以提供服务吗?假 WARN无法使用类加载器从org / apache / tika / parser / ner / opennlp / ner-time.bin中找到模型 INFO TIME NER:是否可以提供服务?假 INFO org.apache.tika.parser.ner.opennlp.OpenNLPNERecogniser可用吗?假 INFO将加载,实例化和绑定org.apache.tika.parser.ner.regex.RegexNERecogniser的实例 INFO org.apache.tika.parser.ner.regex.RegexNERecogniser可用吗?假 INFO链0中的NER识别器数量

唯一可行的方法是通过添加tika / tika-ner-resources目录(即org / blah / blah / *。bin)的内容来重新打包jar。然后执行curl命令,不会出现任何问题。我也尝试过几乎所有设置类路径的组合。

有人有什么想法吗?

1 个答案:

答案 0 :(得分:1)

对于其他有问题的人,以下命令通过删除-jar并手动指定TikaServerCli类为我工作

java -classpath tika/tika-ner-resources/:tika-server-1.18.jar  
org.apache.tika.server.TikaServerCli --config /etc/tika-config.xml -enableUnsecureFeatures -h 0.0.0.0