Solr for Arabic PDF's

时间:2012-11-27 17:27:17

标签: drupal solr arabic right-to-left apache-tika

我正在尝试在Apache Solr中搜索阿拉伯语PDF。问题似乎是Tika以相反的顺序(从左到右)而不是(从右到左)索引PDF。

我在这里找到了关于这个问题的参考资料:

但是,我不知道如何在我的apache solr中包含最新版本的PDFBOX或ICU4J。我的Apache Solr Contrib/extraction/lib文件夹包含pdfbox-1.6.0.jaricu4j-4.8.1.1.jar。删除上述文件并将其替换为项目页面中的最新库是否令人满意,迫使TIKA使用它们?

请解释,因为我以前没有Java servlet的经验。谢谢!

1 个答案:

答案 0 :(得分:0)

从你问题的标签我假设你正在使用Drupal来连接Apache Solr。当你发送二进制文件时,Tika可以从Solr内部运行,或者你可以在将文件发送给Solr之前使用它。 Drupal Solr Attachments模块具有“Tika(本地Java应用程序)”的设置。在您提供的第二个链接中,他们修补了Solr附件模块以使用PDFBox而不是Tika来解析二进制文件,然后再将其发送给Solr。如果你不使用Drupal,你应该尝试类似的方法。