在solr 6.3中索引了4000亿个文档

时间:2017-01-25 08:18:25

标签: solr lucene pysolr

我必须索引大约4000亿个文件来解决6.3。我正在使用select u.txt_full_name from tab_user u where not exists( select 1 from tab_task t where u.txt_full_name = t.created_by and t.status = '1' ); 在索引之前解析我的csv数据。我如何加快索引速度。为了将文档索引到solr,它使用了具有以下语法的add方法bydefault

pysolr

一个基本选项是,我应该将commit和softcommit设置为false以进行快速索引。这是对的吗?

任何其他选项可以快速编制索引吗?

1 个答案:

答案 0 :(得分:1)

看看你是否一次性提交它将是非常昂贵的内存。所以更好的选择是批量提交,所以我建议保留计数变量

if(count == 10000)
{
perform solr commit operation
}

此外,使索引脚本多线程以快速完成这些批处理。