我们正在使用托管在Google Cloud(Ubuntu 16.04 LTS)中的5节点群集,我们注意到其中一个节点的磁盘空间为90%+所以我们关闭了节点:
sudo service elasticsearch stop
然后在GCP控制台中停止实例。
升级节点的磁盘空间后,我们尝试使用以下方法再次启动弹性:
sudo service elasticsearch start
此命令似乎无提示失败,SSH会话暂时冻结后终止。节点的elasticsearch日志中没有显示任何内容,也没有任何内容显示在当前集群的主弹性搜索日志中。我们可以找到出错的唯一提示是节点的syslog:
Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Started Cleanup of Temporary Directories.
Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Starting Elasticsearch...
Jan 25 15:48:29 elasticsearch-1-vm systemd[1]: Started Elasticsearch.
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.597729] kernel tried to execute NX-protected page - exploit attempt? (uid: 113)
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.605545] BUG: unable to handle kernel paging request at 00007f896d5467c0
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.612621] IP: 0x7f896d5467c0
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.615779] PGD 80000003050ee067
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.615780] P4D 80000003050ee067
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.619199] PUD 30508d067
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.622626] PMD 305162067
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.625438] PTE 80000003df15b867
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.628245]
Jan 25 15:48:30 elasticsearch-1-vm kernel: [ 919.633174] Oops: 0011 [#1] SMP PTI
具有4个节点的群集运行状况为绿色,我们似乎无法弄清楚为什么会发生这种情况。
任何关于为什么会这样做的想法都会非常有用。
这是我们在/ etc / default / elasticsearch中的配置: https://gist.github.com/deppi/58826c38ea8414d301eb034e9a29cd54
这里还有我们的/etc/elasticsearch/elasticsearch.yml https://gist.github.com/deppi/17b1f28e649ee528b0fe2ca93a2ff19c
我认为唯一可能导致此问题的是discovery.zen.minimum_master_nodes:2 什么时候应该配置为 discovery.zen.minimum_master_nodes:3 但我们不确定这是什么问题,并且不想冒险进一步打破弹性搜索集群
答案 0 :(得分:0)
根据经验,我知道使用elasticsearch命令关闭群集并不是最好的,我们遇到的问题是节点没有完全关闭,并且尝试获取主级别。这可能就是为什么你可以看到2个节点,但你的节点不再是它的一部分了。
您应该做的是关闭每个节点上的弹性搜索过程,除非您仍然在两个节点上编制索引。在这种情况下,请正确关闭群集:
如果不是您的配置可能是问题,因为我将使用1个主节点和3个从属,并使用另一个数据路径。当您需要关闭群集时,请停止收集,停止排队,逐节点停止存储(弹性)
答案 1 :(得分:0)
这似乎是在GCP上为Ubuntu 16.04 LTS OS部署的新内核的问题。
问题内核:
uname -a
Linux elasticsearch-1-vm 4.13.0-1007-gcp #10-Ubuntu SMP Fri Jan 12 13:56:47 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux
适当的内核:
uname -a
Linux elasticsearch-1-vm 4.13.0-1006-gcp #9-Ubuntu SMP Mon Jan 8 21:13:15 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux
要解决GCP实例的问题,我运行:
sudo apt remove 4.13.0-1007-gcp
sudo apt install 4.13.0-1006-gcp
exit
然后在谷歌云控制台中,重新启动实例,然后SSH回来:
sudo service elasticsearch start