如何使用systemd管理一组新手工人?

时间:2018-10-14 14:16:03

标签: ruby-on-rails systemd resque upstart ubuntu-18.04

我正在尝试将一组新手工人的控制权从新贵迁移到systemd。在upstart下,我们有两个控制脚本,一个脚本定义了一个工作程序,另一个脚本调用了第一个脚本多次,以使用一个upstart命令启动或停止多个工作程序。我们正在尝试使用systemd实现相同的功能。

我已经尝试过为每个工作人员使用单个systemd单位,因此,如果我们要管理6个工作人员,我们将使用6个单独的systemd单位脚本,每个工作人员一个。然后,我们使用bash脚本来触发:

systemctl start|stop|restart worker-1.service &
systemctl start|stop|restart worker-2.service &
...

问题在于,当我们通过systemctl发送终止信号时,它立即终止了父级重传进程,导致任何分叉的童工立即死亡,而不是在死亡之前完成工作。我们能够使用新贵来实现这种确切的行为,在新工作中,父进程将不接受新工作(将停止分叉),并且在工作完成后,子工作进程仍可以在工作时继续工作。自行死亡。

在制度化之下,工人都立即死亡,工作在中途终止,然后才能完成。

我们的systemd单元脚本如下:

[Unit]
Description=Controls a single Resque worker process: worker-1
After=redis.service

[Service]
Restart=on-failure
RestartSec=10
StartLimitInterval=400
StartLimitBurst=5
KillSignal=SIGQUIT

User=www-data
WorkingDirectory=/app/working/dir
Type=single
ExecStart=/usr/bin/bundle exec rake production resque:work QUEUE=a,b,c,d,e,f
ExecStop=/bin/kill -QUIT $MAINPID

[Install]
WantedBy=multi-user.target

我尝试将Type = single更改为Type = forking,但是该进程没有停顿,它尝试启动,然后在没有可用的作业时,因为父进程仅在有作业时才分叉,因此该进程死了并没有熬夜。使用Type = simple时,过程可以按预期工作,但是如上所述,我们无法像暴发户一样优雅地控制它们。

我们的bash脚本如下:

systemctl $COMMAND resque-worker-1.service &

每个工作者服务都有一个命令的位置。 $ COMMAND只是传递给脚本的(start | stop | restart)参数。

以前使用的新贵脚本:

从运行级别开始[2345] 在运行级别[06]上停止

杀死信号QUIT

1 个答案:

答案 0 :(得分:1)

认为我自己解决了这个问题。通过删除此指令:

ExecStop=/bin/kill -QUIT $MAINPID

当我现在发布systemctl stop resque-worker-n.service时,它会优雅地等待直到作业完成,然后杀死该工人。

注意到某些工作仍然可以立即退出,因此添加了此指令:

KillMode=process

但是随后注意到,稍后重新启动工作程序时,resque将“已完成”的作业视为可排队,因此将再次错误地排队。因此添加了该指令:

SendSIGKILL=no

现在的行为似乎与我们使用暴发户之前的行为相同。