将大量xml文件索引到solr 5

时间:2016-01-26 16:19:37

标签: solr solr5

我正在尝试将约100万个xml文件索引到Solr 5.我可以想到几种方法:

  1. 将所有xml文件转储到目录中,然后使用post.jar
  2. 在我看来,数据导入处理程序也可用于递归导入xml文件
  3. 还有其他方法吗?

1 个答案:

答案 0 :(得分:0)

您的问题是如何使用solr索引一百万个xml文件。

即使使用recursiv文件夹结构,也可以使用bin/post - 工具。

如果这有足够的功能:很好。如果您需要更多特殊功能,请构建自己的索引器,特别是使用solrj时,这非常简单。

如果您有足够的主内存,则可以DataImportHandler使用FileListEntityProcessor。 'FileListEntityProcessor'首先收集所有文件,然后运行真正的索引。因此,在您的情况下,第一步将在您的主存储器中放置一百万个“文件”实例。