弹性2.3.4。节点启动安静失败

时间:2018-01-25 17:37:27

标签: elasticsearch

我们正在使用托管在Google Cloud(Ubuntu 16.04 LTS)中的5节点群集,我们注意到其中一个节点的磁盘空间为90%+所以我们关闭了节点:

sudo service elasticsearch stop

然后在GCP控制台中停止实例。

升级节点的磁盘空间后,我们尝试使用以下方法再次启动弹性:

sudo service elasticsearch start

此命令似乎无提示失败,SSH会话暂时冻结后终止。节点的elasticsearch日志中没有显示任何内容,也没有任何内容显示在当前集群的主弹性搜索日志中。我们可以找到出错的唯一提示是节点的syslog:

Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Started Cleanup of Temporary Directories.
    Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Starting Elasticsearch...
    Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Started Elasticsearch.
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.597729] kernel tried to execute NX-protected page - exploit attempt? (uid: 113)
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.605545] BUG: unable to handle kernel paging request at 00007f896d5467c0
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.612621] IP: 0x7f896d5467c0
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.615779] PGD 80000003050ee067
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.615780] P4D 80000003050ee067
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.619199] PUD 30508d067
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.622626] PMD 305162067
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.625438] PTE 80000003df15b867
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.628245]
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.633174] Oops: 0011 [#1] SMP PTI

具有4个节点的群集运行状况为绿色,我们似乎无法弄清楚为什么会发生这种情况。

任何关于为什么会这样做的想法都会非常有用。

这是我们在/ etc / default / elasticsearch中的配置: https://gist.github.com/deppi/58826c38ea8414d301eb034e9a29cd54

这里还有我们的/etc/elasticsearch/elasticsearch.yml https://gist.github.com/deppi/17b1f28e649ee528b0fe2ca93a2ff19c

我认为唯一可能导致此问题的是discovery.zen.minimum_master_nodes:2 什么时候应该配置为 discovery.zen.minimum_master_nodes:3 但我们不确定这是什么问题,并且不想冒险进一步打破弹性搜索集群

2 个答案:

答案 0 :(得分:0)

根据经验,我知道使用elasticsearch命令关闭群集并不是最好的,我们遇到的问题是节点没有完全关闭,并且尝试获取主级别。这可能就是为什么你可以看到2个节点,但你的节点不再是它的一部分了。

您应该做的是关闭每个节点上的弹性搜索过程,除非您仍然在两个节点上编制索引。在这种情况下,请正确关闭群集:

如果不是您的配置可能是问题,因为我将使用1个主节点和3个从属,并使用另一个数据路径。当您需要关闭群集时,请停止收集,停止排队,逐节点停止存储(弹性)

答案 1 :(得分:0)

这似乎是在GCP上为Ubuntu 16.04 LTS OS部署的新内核的问题。

问题内核: uname -a Linux elasticsearch-1-vm 4.13.0-1007-gcp #10-Ubuntu SMP Fri Jan 12 13:56:47 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux

适当的内核: uname -a Linux elasticsearch-1-vm 4.13.0-1006-gcp #9-Ubuntu SMP Mon Jan 8 21:13:15 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux

要解决GCP实例的问题,我运行: sudo apt remove 4.13.0-1007-gcp sudo apt install 4.13.0-1006-gcp exit 然后在谷歌云控制台中,重新启动实例,然后SSH回来: sudo service elasticsearch start