有一个可通过Web访问的文件系统,包含成千上万的PDF文件,我需要Solr(使用Lucidworks)编制索引。
我有一个XML文件,其中包含与每个文件对应的数据。 XML包含ID,一些简单元数据以及文件系统中相应PDF的URL。
目前,我能够以这样的方式格式化XML:Solr读取它并索引我需要的所有元数据,包括PDF的URL。
我希望Solr,因为它正在解析文件,实际上遵循URL并索引引用的PDF数据以及XML提供的元数据。这可能吗?
答案 0 :(得分:1)
您最好的选择(在纯Solr上)可能是具有嵌套实体的DataImportHandler。
外部处理器为XPathEntityProcessor,在此范围内,您可以将TikaEntityProcessor与适当的数据源放在一起。使用变量构造/传递URL到内部实体。
请记住将外部(XPath)实体标记为rootEntity = false,以确保为内部实体创建Solr文档。