Question

我们正在使用托管在Google Cloud（Ubuntu 16.04 LTS）中的5节点群集，我们注意到其中一个节点的磁盘空间为90％+所以我们关闭了节点：

sudo service elasticsearch stop

然后在GCP控制台中停止实例。

升级节点的磁盘空间后，我们尝试使用以下方法再次启动弹性：

sudo service elasticsearch start

此命令似乎无提示失败，SSH会话暂时冻结后终止。节点的elasticsearch日志中没有显示任何内容，也没有任何内容显示在当前集群的主弹性搜索日志中。我们可以找到出错的唯一提示是节点的syslog：

Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Started Cleanup of Temporary Directories.
    Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Starting Elasticsearch...
    Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Started Elasticsearch.
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.597729] kernel tried to execute NX-protected page - exploit attempt? (uid: 113)
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.605545] BUG: unable to handle kernel paging request at 00007f896d5467c0
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.612621] IP: 0x7f896d5467c0
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.615779] PGD 80000003050ee067
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.615780] P4D 80000003050ee067
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.619199] PUD 30508d067
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.622626] PMD 305162067
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.625438] PTE 80000003df15b867
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.628245]
    Jan 25 15:48:30 elasticsearch-1-vm kernel: [  919.633174] Oops: 0011 [#1] SMP PTI

具有4个节点的群集运行状况为绿色，我们似乎无法弄清楚为什么会发生这种情况。

任何关于为什么会这样做的想法都会非常有用。

这是我们在/ etc / default / elasticsearch中的配置： https://gist.github.com/deppi/58826c38ea8414d301eb034e9a29cd54

这里还有我们的/etc/elasticsearch/elasticsearch.yml https://gist.github.com/deppi/17b1f28e649ee528b0fe2ca93a2ff19c

我认为唯一可能导致此问题的是discovery.zen.minimum_master_nodes：2 什么时候应该配置为 discovery.zen.minimum_master_nodes：3 但我们不确定这是什么问题，并且不想冒险进一步打破弹性搜索集群

Answer 1

根据经验，我知道使用elasticsearch命令关闭群集并不是最好的，我们遇到的问题是节点没有完全关闭，并且尝试获取主级别。这可能就是为什么你可以看到2个节点，但你的节点不再是它的一部分了。

您应该做的是关闭每个节点上的弹性搜索过程，除非您仍然在两个节点上编制索引。在这种情况下，请正确关闭群集：

每次需要停止弹性搜索时首先停止收集，因此如果您正在使用堆栈则需要进行logstash
然后停止elasticsearch本身https://www.elastic.co/guide/en/elasticsearch/reference/master/stopping-elasticsearch.html
在让协议发生时启动第一个节点
在其他节点上启动弹性=＆gt;看看是否所有节点都进入了

如果不是您的配置可能是问题，因为我将使用1个主节点和3个从属，并使用另一个数据路径。当您需要关闭群集时，请停止收集，停止排队，逐节点停止存储（弹性）

Answer 2

这似乎是在GCP上为Ubuntu 16.04 LTS OS部署的新内核的问题。

问题内核： uname -a Linux elasticsearch-1-vm 4.13.0-1007-gcp #10-Ubuntu SMP Fri Jan 12 13:56:47 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux

适当的内核： uname -a Linux elasticsearch-1-vm 4.13.0-1006-gcp #9-Ubuntu SMP Mon Jan 8 21:13:15 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux

要解决GCP实例的问题，我运行： sudo apt remove 4.13.0-1007-gcp sudo apt install 4.13.0-1006-gcp exit 然后在谷歌云控制台中，重新启动实例，然后SSH回来： sudo service elasticsearch start

弹性2.3.4。节点启动安静失败

2 个答案: