Celery:WorkerLostError:工人过早退出:信号9(SIGKILL)

时间:2014-04-02 08:03:04

标签: django amazon-ec2 celery elastic-beanstalk supervisord

我在我的Django应用程序(在Elastic Beanstalk上)使用Celery和RabbitMQ来管理后台任务,我使用Supervisor对其进行了守护。 现在的问题是,我定义的一个期间任务失败了(在一周工作正常之后),我得到的错误是:

[01/Apr/2014 23:04:03] [ERROR] [celery.worker.job:272] Task clean-dead-sessions[1bfb5a0a-7914-4623-8b5b-35fc68443d2e] raised unexpected: WorkerLostError('Worker exited prematurely: signal 9 (SIGKILL).',)
Traceback (most recent call last):
  File "/opt/python/run/venv/lib/python2.7/site-packages/billiard/pool.py", line 1168, in mark_as_worker_lost
    human_status(exitcode)),
WorkerLostError: Worker exited prematurely: signal 9 (SIGKILL).

主管管理的所有进程都正常运行(supervisorctl status说RUNNNING)。

我尝试在ec2实例上读取几个日志,但似乎没有人帮我找出SIGKILL的原因。我该怎么办?我该如何调查?

这些是我的芹菜设置:

CELERY_TIMEZONE = 'UTC'
CELERY_TASK_SERIALIZER = 'json'
CELERY_ACCEPT_CONTENT = ['json']
BROKER_URL = os.environ['RABBITMQ_URL']
CELERY_IGNORE_RESULT = True
CELERY_DISABLE_RATE_LIMITS = False
CELERYD_HIJACK_ROOT_LOGGER = False

这是我的supervisord.conf:

[program:celery_worker]
environment=$env_variables
directory=/opt/python/current/app
command=/opt/python/run/venv/bin/celery worker -A com.cygora -l info --pidfile=/opt/python/run/celery_worker.pid
startsecs=10
stopwaitsecs=60
stopasgroup=true
killasgroup=true
autostart=true
autorestart=true
stdout_logfile=/opt/python/log/celery_worker.stdout.log
stdout_logfile_maxbytes=5MB
stdout_logfile_backups=10
stderr_logfile=/opt/python/log/celery_worker.stderr.log
stderr_logfile_maxbytes=5MB
stderr_logfile_backups=10
numprocs=1

[program:celery_beat]
environment=$env_variables
directory=/opt/python/current/app
command=/opt/python/run/venv/bin/celery beat -A com.cygora -l info --pidfile=/opt/python/run/celery_beat.pid --schedule=/opt/python/run/celery_beat_schedule
startsecs=10
stopwaitsecs=300
stopasgroup=true
killasgroup=true
autostart=false
autorestart=true
stdout_logfile=/opt/python/log/celery_beat.stdout.log
stdout_logfile_maxbytes=5MB
stdout_logfile_backups=10
stderr_logfile=/opt/python/log/celery_beat.stderr.log
stderr_logfile_maxbytes=5MB
stderr_logfile_backups=10
numprocs=1

编辑:重新启动芹菜后,问题仍然存在:(

编辑2:将killasgroup = true更改为killasgroup = false并且问题仍然存在

2 个答案:

答案 0 :(得分:35)

您的员工收到的SIGKILL是由另一个流程启动的。你的supervisord配置看起来很好,并且killasgroup只会影响主管发起的kill(例如ctl或插件) - 如果没有这个设置,它会将信号发送给调度员,而不是孩子。

很可能你有内存泄漏,操作系统的oomkiller正在暗杀你的过程中的不良行为。

grep oom /var/log/messages。如果你看到消息,那就是你的问题。

如果找不到任何内容,请尝试在shell中手动运行定期过程:

MyPeriodicTask().run()

看看会发生什么。如果你没有这个主机的仙人掌,神经节等好的仪器,我会从另一个终端的顶部监控系统和流程指标。

答案 1 :(得分:0)

当您的异步任务(通过 celery)或您使用的脚本存储大量数据(在内存中)时,会出现这种错误。它会导致内存泄漏。

就我而言,我从其他系统获取数据并将其保存在变量中,以便在完成整个过程后可以导出所有数据(到 Django 模型/Excel 文件中)。

这是问题。我的脚本正在收集 1000 万条数据,当我将数据收集到我的 python 变量中时,它正在耗尽内存。这引发了错误。

为了解决这个问题,我将 1000 万条数据分成 20 份(每份 50 万份)。我查了一下,当数据长度为 50 万时,我将数据存储到我自己喜欢的本地文件/Django 模型中。然后为接下来的 50 万做这个,依此类推。

不需要做确切数量的分区。它是一种将复杂问题分解为多个子问题并逐一解决子问题的思想。 :D