我应该用多少核心来使用Solr索引5000万个文档

时间:2015-08-04 11:58:18

标签: solr solrj dih

我有4000万个文件存储在文件系统中。 我想采取一些建议,有很多方法可以做索引,如DIH,solr,Solrj。 我应该使用多少核心来索引5000万个文档。 我有4000万份文件。

我决定使用SolJ。这是一个很好的方式,如果是,那么我不知道我应该使用多少核心?

我有一个存储在文件系统中的4000万个文件, 文件名保存为ARIA_SSN10_0007_LOCATION_0000129.pdf

  1. 我必须从文件名中拆分所有下划线值,这些值必须是solr的索引。
  2. 我必须做的上述操作。是否可以使用DIH如果是,那么我将如何使用DIH拆分这些操作。请分享一些链接。

    请建议。
    感谢

0 个答案:

没有答案