芹菜 - 在Heroku上对工人和时钟进程

时间:2014-08-25 16:43:27

标签: django multithreading heroku celery clock

我有一个定期任务,我正在使用worker:

在heroku procfile上实现

Procile

web: gunicorn voltbe2.wsgi --log-file - --log-level debug
worker: celery -A voltbe2 worker --beat -events -loglevel info 

tasks.py

class PullXXXActivityTask(PeriodicTask):
    """
    A periodic task that fetch data every 1 mins.
    """
    run_every = timedelta(minutes=1)

    def run(self, **kwargs):
        abc= MyModel.objects.all()
        for rk in abc:
            rk.pull()
        logger = self.get_logger(**kwargs)
        logger.info("Running periodic task for XXX.")

        return True

对于这个时期的描述,我需要--beat(我通过关闭来检查,并且它不重复任务)。因此,在某种程度上,--beat执行时钟(https://devcenter.heroku.com/articles/scheduled-jobs-custom-clock-processes

的工作

我担心的是:如果我将工作人员heroku ps:scale worker=2扩展为2x dynos,我发现在worker.1和worker.2上有两个节拍从日志中运行:

 Aug 25 09:38:11 emstaging app/worker.2: [2014-08-25 16:38:11,580: INFO/Beat] Scheduler: Sending due task apps.notification.tasks.SendPushNotificationTask (apps.notification.tasks.SendPushNotificationTask)
Aug 25 09:38:20 emstaging app/worker.1: [2014-08-25 16:38:20,239: INFO/Beat] Scheduler: Sending due task apps.notification.tasks.SendPushNotificationTask (apps.notification.tasks.SendPushNotificationTask) 

显示的日志是针对不同的周期性任务,但关键点是两个工作人员都从各自的时钟获取信号来执行相同的任务,而事实上应该有一个时钟滴答,每隔XX秒决定做什么,并将该任务交给负载最少的worker.n dyno

关于为什么单个时钟必不可少的更多信息,请访问:https://devcenter.heroku.com/articles/scheduled-jobs-custom-clock-processes#custom-clock-processes

这是一个问题以及如何避免这种情况,如果是这样的话?

1 个答案:

答案 0 :(得分:17)

你应该为节拍过程设一个单独的工作人员。

web: gunicorn voltbe2.wsgi --log-file - --log-level debug
worker: celery -A voltbe2 worker -events -loglevel info 
beat: celery -A voltbe2 beat 

现在,您可以在不影响节拍任务的情况下缩放工作人员任务。

或者,如果你不总是需要额外的过程,你可以继续在worker任务中使用-B,但也有第二个任务 - 比如extra_worker - 通常设置为0 dynos,但是你可以根据需要扩大规模。重要的是始终在1个过程中保持任务的节拍