这是一个Solr新手问题 - 但对我来说理解Solr如何工作以及它是否适合我的项目非常重要。
我想索引二进制文档,即MS-Office文档和PDF。我理解Solr可以索引这些文档的内容,我可以构建查询以获取我指定的值和字段作为结果。我的问题是PDF(或任何文档)扫描后会发生什么?它实际存储或完全丢弃,我可以获得一个参考/链接回原始文件,包括。从solr返回的位置(路径)还是我必须在提交文件时传递此信息?
有人可以帮我理解这个吗?
答案 0 :(得分:0)
您可以基本上索引任何内容,SOLR将允许您搜索并返回结果。例如,我们使用Nutch来索引我们的网站。我们有自制的Groovy脚本,可以从数据库中提取数据并创建SOLR索引。
重要的部分是如何构建索引。如果您提供URL或其他资源定位器以便能够链接到您的文件,那么您可以让SOLR在结果有效负载中返回该信息。