我一直在努力研究当doc或pdf等文档提交给它时solr如何工作。我想知道我是否将pdf提交给solr,它是否最终存储了pdf文件以及解析pdf文件后生成的索引?
谢谢,
-Keshav
答案 0 :(得分:4)
Solr(Lucene)本身并没有“最终存储PDF文件”。但是,它可以使用文本提取器(如Tika)存储从PDF中提取的PDF的文本内容(如果该字段确实标记为存储在模式中)。
如果您希望完整存储PDF文件,则需要将PDF转换为(例如)Base64表示,并将base64字符串保留为“存储”字段。因此,当您访问该文档时,您将从Base64转换回PDF。