使用Solr

时间:2016-11-16 10:08:35

标签: pdf solr document apache-tika

我正在尝试使用Solr和Tika搜索文本文档。一切都适用于.docx,.pptx,.csv,.xlsx,..但是当谈到.pdf文件时,它会返回空内容。我无法弄清问题在哪里!

2 个答案:

答案 0 :(得分:0)

如果您使用post.jar索引文件请使用-Dauto

示例:

java -Dauto -Dc=collection_name -jar post.jar pdf_file.pdf

使用-Dauto,我们可以索引tika支持的所有文档格式。 即txt,doc,docx,pdf,xml,html等。

将这些阿拉伯语过滤器类添加到字段定义

<fieldType name="text_general_arabic" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" />
    <filter class="solr.ArabicNormalizationFilterFactory"/>
    <filter class="solr.ArabicStemFilterFactory"/>    
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" />
    <filter class="solr.ArabicNormalizationFilterFactory"/>
    <filter class="solr.ArabicStemFilterFactory"/>    
  </analyzer>
</fieldType>

答案 1 :(得分:0)

难以正确解析PDF,因为PDF可以包含内部文本或图像。我们创建了一个工具,可以轻松搜索任何文件的内容。 根据我们的经验:

  1. 首先使用PDFbox解析PDF
  2. 如果步骤1返回零 - >做一个OCR
  3. 您可以在我们的博客https://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use-it/

    中找到有关流程的完整说明

    希望它有所帮助。

    P.S。我们的综合解决方案https://github.com/RD17/ambar