我现在有一个基本的弹性搜索集群,我正在使用河流来索引数据。我想分两个阶段为未来增长做好准备。每秒索引的文档数量可能是瓶颈。
我应该怎么做?
由于式提前!
编辑:
我试图索引Twitter流。
每个文档=大约2 KB。
硬件很灵活。现在我有磁盘(50 GB RAM),但获得SSD(和更好的配置)并不是什么大事。
答案 0 :(得分:1)
来自实验和文章的一些亮点:
由于您将进行大量编写,因此请确保从大量主要分片开始。您可以根据您将拥有/需要的节点数做出决定。基本上,您希望确保主分片分布在不同的节点上,以便它们可以共享工作。创建索引后,您无法更改主分片的数量,因此请仔细考虑。
请勿将超过50%的机器内存分配给ES。其余的将由Lucene使用(见http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/heap-sizing.html)
使用SSD。编制索引时,I / O起着重要作用(参见http://www.elasticsearch.org/blog/performance-considerations-elasticsearch-indexing/)
通常:I / O>记忆>多CPU核心>快速单CPU(参见http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/hardware.html)
几乎每个设置都是独一无二的,因此找出适合您的最佳配置的最佳方法是尝试一下。 Elasticsearch有一个很棒的监控工具叫做Marvel(http://www.elasticsearch.org/overview/marvel/)
玩得开心!