Question

我的用例

我每天有20GB的文件。（管道分隔的文本文件）
我已将90天数据编入索引（20 * 90 gb）
记录数--55亿
总字段数 - 30
索引字段 - called_number，calling_number，time_key
所有其他字段按schema.cml
索引大小 - 300gb
没有分片= 4

我用下面的方法来索引（org.apache.solr.hadoop.MapReduceIndexerTool）

hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.M apReduceIndexerTool \
    --morphline-file $path/morphlines.conf –output -dir hdfs://MASTERNODE:8020/$path2 \
    --go-live --zk-host MASTERNODE:2181/solr \
    --collection COLLECTIONNAME \
    --mappers 4 \
    --reducers 12 hdfs://Masternode/path/asd.txt

在我的测试床上，我有4个数据节点和1个名称节点。（cloudera上的试验台5.4.7）每个节点都有256gb ram，我应该在solr中遵循任何性能提升技巧吗？

在一次搜索中获得3000条记录（基于时间键的范围查询）需要大约120秒。但是在第一次查询之后，它会被缓存，然后如果我再次执行，我的响应时间不到1秒，同时输出更大的记录（10000条记录输出也会在1秒内完成）

请注意，在检索10到20条记录时，第一次表现良好。

大数据检索的solr性能

0 个答案: