大数据检索的solr性能

时间:2016-04-01 09:08:46

标签: hadoop search solr cloudera cloudera-cdh

我的用例

  • 我每天有20GB的文件。 (管道分隔的文本文件)
  • 我已将90天数据编入索引(20 * 90 gb)
  • 记录数--55亿
  • 总字段数 - 30
  • 索引字段 - called_number,calling_number,time_key
  • 所有其他字段按schema.cml
  • 存储
  • 索引大小 - 300gb
  • 没有分片= 4

我用下面的方法来索引(org.apache.solr.hadoop.MapReduceIndexerTool)

hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.M apReduceIndexerTool \
    --morphline-file $path/morphlines.conf –output -dir hdfs://MASTERNODE:8020/$path2 \
    --go-live --zk-host MASTERNODE:2181/solr \
    --collection COLLECTIONNAME \
    --mappers 4 \
    --reducers 12 hdfs://Masternode/path/asd.txt

在我的测试床上,我有4个数据节点和1个名称节点。 (cloudera上的试验台5.4.7) 每个节点都有256gb ram,我应该在solr中遵循任何性能提升技巧吗?

在一次搜索中获得3000条记录(基于时间键的范围查询)需要大约120秒。但是在第一次查询之后,它会被缓存,然后如果我再次执行,我的响应时间不到1秒,同时输出更大的记录(10000条记录输出也会在1秒内完成)

请注意,在检索10到20条记录时,第一次表现良好。

0 个答案:

没有答案