应用错误收集

时间：2013-06-10 17:40:01

标签： xml solr xml-parsing lucidworks

有一个可通过Web访问的文件系统，包含成千上万的PDF文件，我需要Solr（使用Lucidworks）编制索引。

我有一个XML文件，其中包含与每个文件对应的数据。 XML包含ID，一些简单元数据以及文件系统中相应PDF的URL。

目前，我能够以这样的方式格式化XML：Solr读取它并索引我需要的所有元数据，包括PDF的URL。

我希望Solr，因为它正在解析文件，实际上遵循URL并索引引用的PDF数据以及XML提供的元数据。这可能吗？

答案 0 :(得分：1)

您最好的选择（在纯Solr上）可能是具有嵌套实体的DataImportHandler。

外部处理器为XPathEntityProcessor，在此范围内，您可以将TikaEntityProcessor与适当的数据源放在一起。使用变量构造/传递URL到内部实体。

请记住将外部（XPath）实体标记为rootEntity = false，以确保为内部实体创建Solr文档。