我正在尝试在Apache Solr中搜索阿拉伯语PDF。问题似乎是Tika以相反的顺序(从左到右)而不是(从右到左)索引PDF。
我在这里找到了关于这个问题的参考资料:
但是,我不知道如何在我的apache solr中包含最新版本的PDFBOX或ICU4J。我的Apache Solr Contrib/extraction/lib
文件夹包含pdfbox-1.6.0.jar
和icu4j-4.8.1.1.jar
。删除上述文件并将其替换为项目页面中的最新库是否令人满意,迫使TIKA使用它们?
请解释,因为我以前没有Java servlet的经验。谢谢!
答案 0 :(得分:0)
从你问题的标签我假设你正在使用Drupal来连接Apache Solr。当你发送二进制文件时,Tika可以从Solr内部运行,或者你可以在将文件发送给Solr之前使用它。 Drupal Solr Attachments模块具有“Tika(本地Java应用程序)”的设置。在您提供的第二个链接中,他们修补了Solr附件模块以使用PDFBox而不是Tika来解析二进制文件,然后再将其发送给Solr。如果你不使用Drupal,你应该尝试类似的方法。