Tika OCR无法从螺母中提取扫描的PDF内容

时间:2019-02-14 11:51:08

标签: nutch

我正在使用坚果1.13和Solr 5.5 seedurl:https://www.roche.com/investors.htm/ nutch无法获得任何内容 https://www.roche.com/dam/jcr:820a0af6-9ff6-40b4-bb0c-f8c8f6991fae/en/agm16_results_d.pdf

我尝试使用tika-parser的tika-app 1.12 jar安装,并修改了org / apache / tika / parser / pdf / PDFParser.properties 根据{{​​3}}

中的参考

我解压缩了tika-app jar,对属性文件进行了更改,然后将其重新压缩,将其添加到pare-tika插件中,对plugins \ parse-tika \ plugin.xml进行了更改,以包含tika-app

<!--<library name="tika-parsers-1.12.jar"/>-->
<library name="tika-app-1.12.jar"/>

但是我仍然无法在solr中看到文件的内容。 我也需要在solr配置中进行更改吗? 我想念的是什么。

0 个答案:

没有答案