应用错误收集

时间：2017-09-15 08:54:04

标签： apache solr lucene text-search

好吧，我正在调查Solr以满足我的以下特定要求：

要求：

文件夹中有一个“X”名称，其中有数千个XML结构文件，现在我想搜索一个术语（即“Hello World”），结果，我想得到的文件数量是多少将命名为“Hello World”。

那么我们能否实现使用Solr，如果是，那么任何人都可以给我一点指导来实现同样的目标吗？

注意： XML文件可以是任何格式，即（https://i.stack.imgur.com/wNPTW.png）

问题：“wNPTW.png”中的结构定义是否对Solr搜索文本有效？或者我们必须依赖Solr特定的文档结构。即（https://i.stack.imgur.com/sqn5q.png）

此外，性能是我的首要要求。

请建议我如何才能继续前进？如果有任何其他技术可用，那么请建议我。

期待收到你们的回复：）

答案 0 :(得分：0)

是

如果XML格式在所有文档中或多或少相同，则可以使用Data Import Handler配置从节点到字段的映射（使用xpath）。您可以这样做以将几乎任何XML字段映射到公共Solr字段（如果XML文件没有很好地定义）。

如果您需要更具体的文件处理，编写一个小索引器并在该层中执行所需的转换可能是最简单的方法。