好吧,我正在调查Solr以满足我的以下特定要求:
要求:
文件夹中有一个“X”名称,其中有数千个XML结构文件,现在我想搜索一个术语(即“Hello World”),结果,我想得到的文件数量是多少将命名为“Hello World”。
那么我们能否实现使用Solr,如果是,那么任何人都可以给我一点指导来实现同样的目标吗?
注意: XML文件可以是任何格式,即(https://i.stack.imgur.com/wNPTW.png)
问题:“wNPTW.png”中的结构定义是否对Solr搜索文本有效?或者我们必须依赖Solr特定的文档结构。即(https://i.stack.imgur.com/sqn5q.png)
此外,性能是我的首要要求。
请建议我如何才能继续前进?如果有任何其他技术可用,那么请建议我。
期待收到你们的回复:)
答案 0 :(得分:0)
是
如果XML格式在所有文档中或多或少相同,则可以使用Data Import Handler配置从节点到字段的映射(使用xpath)。您可以这样做以将几乎任何XML字段映射到公共Solr字段(如果XML文件没有很好地定义)。
另一种选择是使用built-in support with Apache Tika to parse files and use that to extract data into a content field并对其进行搜索。
如果您需要更具体的文件处理,编写一个小索引器并在该层中执行所需的转换可能是最简单的方法。