Question

我正在尝试使用Solr和Tika搜索文本文档。一切都适用于.docx，.pptx，.csv，.xlsx，..但是当谈到.pdf文件时，它会返回空内容。我无法弄清问题在哪里！

Answer 1

如果您使用post.jar索引文件请使用-Dauto

示例：

java -Dauto -Dc=collection_name -jar post.jar pdf_file.pdf

使用-Dauto，我们可以索引tika支持的所有文档格式。即txt，doc，docx，pdf，xml，html等。

将这些阿拉伯语过滤器类添加到字段定义

<fieldType name="text_general_arabic" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" />
    <filter class="solr.ArabicNormalizationFilterFactory"/>
    <filter class="solr.ArabicStemFilterFactory"/>    
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" />
    <filter class="solr.ArabicNormalizationFilterFactory"/>
    <filter class="solr.ArabicStemFilterFactory"/>    
  </analyzer>
</fieldType>

Answer 2

难以正确解析PDF，因为PDF可以包含内部文本或图像。我们创建了一个工具，可以轻松搜索任何文件的内容。根据我们的经验：

首先使用PDFbox解析PDF
如果步骤1返回零 - >做一个OCR

您可以在我们的博客https://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use-it/

希望它有所帮助。

P.S。我们的综合解决方案https://github.com/RD17/ambar

使用Solr

2 个答案: