如何使用Lucene Solr索引近3百万个xml文件

时间:2011-08-05 05:54:09

标签: xml lucene indexing solr

我试图用lucene solr索引近300万个xml文件。当我尝试使用命令行“java -jar post.jar * .xml”时。机器没有响应。我该如何进行索引编制?非常感谢。

3 个答案:

答案 0 :(得分:2)

将其分成较小的批次。例如。假设您的XML文件被命名为aaa.xml到zzz.xml并且分布均匀,首先发送“java -jar a * .xml”,然后发送“java -jar b * .xml”等。

答案 1 :(得分:1)

前一段时间Open library项目将大量书籍加载到solr中进行搜索。有关于它的博客文章here可能对您有用。

答案 2 :(得分:0)

您是否尝试过装入3000个文件?你成功了,需要多长时间?你还没有说文件有多大,所以不可能给出估计,但我看到数据库加载(不是lucene,但类似)每小时运行100,000个文档。