Heroku上的Django Celery任务导致高内存使用率

时间:2017-01-01 10:42:05

标签: python django heroku django-celery

我在Heroku上有芹菜任务,它连接到外部API并检索一些数据,存储在数据库中并重复数百次。非常快(在~10次循环之后)Heroku开始警告高内存使用率。有什么想法吗?

tasks.py

@app.task
def retrieve_details():
    for p in PObj.objects.filter(some_condition=True):
        p.fetch()

models.py

def fetch(self):
    v_data = self.service.getV(**dict(
        Number=self.v.number
    ))
    response = self.map_response(v_data)

    for key in ["some_key","some_other_key",]:
        setattr(self.v, key, response.get(key))

    self.v.save()

Heroky记录

2017-01-01 10:26:25.634
132 <45>1 2017-01-01T10:26:25.457411+00:00 heroku run.5891 - - Error R14 (Memory quota exceeded)

Go to the log: https://api.heroku.com/myapps/xxx@heroku.com/addons/logentries

You are receiving this email because your Logentries alarm "Memory quota exceeded"
has been triggered.

In context:
2017-01-01 10:26:25.568 131 <45>1 2017-01-01T10:26:25.457354+00:00 heroku run.5891 - - Process running mem=595M(116.2%)
2017-01-01 10:26:25.634 132 <45>1 2017-01-01T10:26:25.457411+00:00 heroku run.5891 - - Error R14 (Memory quota exceeded)

2 个答案:

答案 0 :(得分:7)

您基本上将一堆数据加载到内存中的Python字典中。这将导致大量内存开销,尤其是当您从本地数据库中获取大量对象时。

您真的需要将所有这些对象存储在字典中吗?

大多数人为这样的事情做的是:

  • 一次从数据库中检索一个对象。
  • 处理该项目(执行您需要的任何逻辑)。
  • 重复。

这样,您最终只能在任何给定时间将单个对象存储在内存中,从而大大减少内存占用。

如果我是你,我会寻找将逻辑转移到数据库查询中的方法,或者只是单独处理每个项目。

答案 1 :(得分:3)

为了扩展真正的rdegges想法,以下是我在使用celery / python时帮助减少内存占用的两个策略:(1)启动子任务,每个处理只有一个对象和/或( 2)使用发电机。

  1. 启动子任务,每个子进程只处理一个对象:

    @app.task
    def retrieve_details():
        qs = PObj.objects.filter(some_condition=True)
        for p in qs.values_list('id', flat=True):
            do_fetch.delay(p)
    
    @app.task
    def do_fetch(n_id):
        p = PObj.objects.get(id=n_id)
        p.fetch()
    

    现在,您可以使用--max-tasks-per-child处理N个PObj(任务)以使内存占用率降低,从而调整芹菜,以便它杀死进程。

  2. 使用生成器:您也可以使用生成器尝试此操作,这样您就可以(理论上)在调用fetch后抛弃PObj

    def ps_of_interest(chunk=10):
        n = chunk
        start = 0
        while n == chunk:
            some_ps = list(PObj.objects.filter(some_condition=True)[start:start + n])
            n = len(some_ps)
            start += chunk
            for p in some_ps:
                yield p
    
    @app.task
    def retrieve_details():
        for p in ps_of_interest():
            p.fetch()
    
  3. 对于我的钱,我会选择#1。