Apache Solr - 文件本身是否存储在内部,与索引不同?

时间:2010-08-06 17:34:05

标签: indexing lucene storage solr

我一直在努力研究当doc或pdf等文档提交给它时solr如何工作。我想知道我是否将pdf提交给solr,它是否最终存储了pdf文件以及解析pdf文件后生成的索引?

谢谢,

-Keshav

1 个答案:

答案 0 :(得分:4)

Solr(Lucene)本身并没有“最终存储PDF文件”。但是,它可以使用文本提取器(如Tika)存储从PDF中提取的PDF的文本内容(如果该字段确实标记为存储在模式中)。

如果您希望完整存储PDF文件,则需要将PDF转换为(例如)Base64表示,并将base64字符串保留为“存储”字段。因此,当您访问该文档时,您将从Base64转换回PDF。