我使用DataImportHandler2设置了Solr服务器。使用我当前的设置,完全导入需要8-9个小时。我想优化设置以减少时间,但文档不清楚各种设置的作用以及它们有什么副作用。
服务器是m2.2xlarge AWS实例(34.2 GB RAM)。 Solr版本为3.6.1.2012.07.17.12.45.52。 Solr在Tomcat 7.0.30上运行。 Tomcat使用-Xms4096m -Xmx28672m运行。
从solrconfig.xml,mergeFactor为10,useCompoundFile为false。 从data-config.xml开始,autoCommit为true,batchSize为-1。 DataImportHandler正在使用的查询返回600万条记录。
答案 0 :(得分:1)
在查看mergeFactor等之前,您应该查看db-data-config.xml中的实体。如果你有其他实体内的实体,这些将产生很多sql请求。您需要在sql上工作以不执行内部实体或查看CachedSqlEntityProcessor等