我正在尝试使用Solr和Tika搜索文本文档。一切都适用于.docx,.pptx,.csv,.xlsx,..但是当谈到.pdf文件时,它会返回空内容。我无法弄清问题在哪里!
答案 0 :(得分:0)
如果您使用post.jar索引文件请使用-Dauto
示例:
java -Dauto -Dc=collection_name -jar post.jar pdf_file.pdf
使用-Dauto,我们可以索引tika支持的所有文档格式。 即txt,doc,docx,pdf,xml,html等。
将这些阿拉伯语过滤器类添加到字段定义
<fieldType name="text_general_arabic" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
</analyzer>
</fieldType>
答案 1 :(得分:0)
难以正确解析PDF,因为PDF可以包含内部文本或图像。我们创建了一个工具,可以轻松搜索任何文件的内容。 根据我们的经验:
您可以在我们的博客https://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use-it/
中找到有关流程的完整说明希望它有所帮助。
P.S。我们的综合解决方案https://github.com/RD17/ambar