应用错误收集

Solr for Arabic PDF's

时间：2012-11-27 17:27:17

标签： drupal solr arabic right-to-left apache-tika

我正在尝试在Apache Solr中搜索阿拉伯语PDF。问题似乎是Tika以相反的顺序（从左到右）而不是（从右到左）索引PDF。

我在这里找到了关于这个问题的参考资料：

但是，我不知道如何在我的apache solr中包含最新版本的PDFBOX或ICU4J。我的Apache Solr Contrib/extraction/lib文件夹包含pdfbox-1.6.0.jar和icu4j-4.8.1.1.jar。删除上述文件并将其替换为项目页面中的最新库是否令人满意，迫使TIKA使用它们？

请解释，因为我以前没有Java servlet的经验。谢谢！

1 个答案:

答案 0 :(得分：0)

从你问题的标签我假设你正在使用Drupal来连接Apache Solr。当你发送二进制文件时，Tika可以从Solr内部运行，或者你可以在将文件发送给Solr之前使用它。 Drupal Solr Attachments模块具有“Tika（本地Java应用程序）”的设置。在您提供的第二个链接中，他们修补了Solr附件模块以使用PDFBox而不是Tika来解析二进制文件，然后再将其发送给Solr。如果你不使用Drupal，你应该尝试类似的方法。