应用错误收集

保留了对原始文件的参考？

时间：2011-07-07 00:13:16

标签： indexing solr

这是一个Solr新手问题 - 但对我来说理解Solr如何工作以及它是否适合我的项目非常重要。

我想索引二进制文档，即MS-Office文档和PDF。我理解Solr可以索引这些文档的内容，我可以构建查询以获取我指定的值和字段作为结果。我的问题是PDF（或任何文档）扫描后会发生什么？它实际存储或完全丢弃，我可以获得一个参考/链接回原始文件，包括。从solr返回的位置（路径）还是我必须在提交文件时传递此信息？

有人可以帮我理解这个吗？

1 个答案:

答案 0 :(得分：0)

您可以基本上索引任何内容，SOLR将允许您搜索并返回结果。例如，我们使用Nutch来索引我们的网站。我们有自制的Groovy脚本，可以从数据库中提取数据并创建SOLR索引。

重要的部分是如何构建索引。如果您提供URL或其他资源定位器以便能够链接到您的文件，那么您可以让SOLR在结果有效负载中返回该信息。