Question

我正在使用Apache Solr 6.6.0来通过递归索引文件夹中的所有文件来构建搜索引擎。

我是如何做到的：1）我根据云示例创建索引。 2）我索引给定文件夹中的所有文件。

bin\solr start -e cloud -noprompt
java -Dc=gettingstarted -Dauto=yes -Ddata=files -Drecursive=yes -jar example\exampledocs\post.jar <path_to_folder>

稍后当我在用户界面中搜索查询时，我看到，即使它为我提供了顶级匹配，但它并未向我提供文档内容。经过一些研究，我发现了一个名为“_text_”的字段及其在托管模式文件中的配置：

<field name="_text_" type="text_general" multiValued="true" indexed="true" stored="false"/>

如您所见，该字段未存储，我认为这是响应无法提供内容的原因。

我是否在正确的轨道上？如果是，我该如何编辑该字段的配置？我应该删除它并创建一个具有相同名称且存储= true的新的吗？

谢谢。

Answer 1

_text_字段不应存储，因为它被用作＆＃34;全部捕获＆＃34;领域。首先，您应该检查Solr配置，以确保它只包含文件内容。如果是这样，那么您可以将该字段标记为已存储。

但是，一般来说，文件内容仅被编入索引，而不是存储，因为

一个GUI，为了让最终用户看到内容，有一些其他方式来访问文件内容（例如，通常静态资源，如txt文件是在一个单独的Apache实例中发布的，所以从客户的角度来看，它＆＃39;只是制作HTTP网址的问题）
它会大大增加您的索引大小

因此，换句话说：使用Solr进行搜索，一旦获得给定的项目元数据，就可以使用其标识符进入其他系统，并且＆＃34;查看＆＃34;相应的内容。这是通常的*场景，特别是对于处理非结构化数据，如txt文件