Apache solr可以存储上传的实际文件吗?

时间:2017-12-06 04:54:12

标签: apache solr lucene apache-tika

这是我第一次使用Stack Overflow。感谢所有人提供有价值的信息并互相帮助。

我目前正在研究Apache Solr 7.我需要完成一个POC,因为我没有时间把这个问题放在这里。我在我的Windows机器上安装了SOLR。我已经使用Admin UI中的/ update / extract创建了核心并上传了PDF文档。上传后,如果我使用查询按钮从管理界面查询,我可以看到该文件的元数据。我想知道我是否也可以获得PDF的actusl内容。我可以看到在/ data / tlog / tlog000下生成了一个tlog文件...包含原始PDF数据但不是实际文件。

所以问题是, 1.我可以获得PDF内容吗? 2. Solr是否将实际文件存储在某处?      一个。如果它存储然后它在哪里?      湾如果它没有存储,那么有没有办法存储THE FILE?

此致 Munish Arora

1 个答案:

答案 0 :(得分:1)

Solr不会在任何地方疼痛实际文件。 根据您的配置,它可以存储二进制内容。 使用提取请求处理程序Apache Solr依赖Apache Tika [1]从文档中提取内容[2]。

因此,如果您愿意,可以搜索并返回pdf的内容和许多其他元数据。

[1] https://tika.apache.org/

[2] https://lucene.apache.org/solr/guide/6_6/uploading-data-with-solr-cell-using-apache-tika.html