
时间:2016-04-20 17:46:28

标签: python django

我正在使用Django 1.9。我有一个Django表,表示按月组织的特定度量值,原始值和百分位数:

class MeasureValue(models.Model):
    org = models.ForeignKey(Org, null=True, blank=True)
    month = models.DateField()
    calc_value = models.FloatField(null=True, blank=True)
    percentile = models.FloatField(null=True, blank=True)



records = MeasureValue.objects.filter(month=month).values()
df = pd.DataFrame.from_records(records)
// use calc_value to set percentile on each row, using scipy's rankdata


for i, row in df.iterrows():
    mv = MeasureValue.objects.get(org=row.org, month=month)
    if (row.percentile is None) or np.isnan(row.percentile):
        row.percentile = None
    mv.percentile = row.percentile

这不足为奇。是否有任何有效的Django方法来加速它,通过单个数据库写入而不是数万个?我有checked the documentation,但看不到一个。

3 个答案:

答案 0 :(得分:15)


from django.db import transaction

with transaction.atomic():
    for i, row in df.iterrows():
        mv = MeasureValue.objects.get(org=row.org, month=month)

        if (row.percentile is None) or np.isnan(row.percentile): 
            # if it's already None, why set it to None?
            row.percentile = None

        mv.percentile = row.percentile


通过使用with transaction.atomic(),所有插入都被分组到一个事务中。提交事务所需的时间在所有随附的insert语句中分摊,因此每个insert语句的时间大大减少。

答案 1 :(得分:1)

从Django 2.2开始,您可以使用bulk_update() queryset方法来有效地更新所提供的模型实例上的给定字段,通常使用一个查询:


在旧版本的Django中,您可以将update()When / from django.db.models import Case, When Entry.objects.filter( pk__in=headlines # `headlines` is a pk -> headline mapping ).update( headline=Case(*[When(pk=entry_pk, then=headline) for entry_pk, headline in headlines.items()])) 配合使用,例如:

答案 2 :(得分:0)

实际上,尝试@Eugene Yarmash 的回答我发现我收到了这个错误:

FieldError: Joined field references are not permitted in this query

但我相信迭代 update 仍然比多次保存要快,我希望使用事务也应该加快速度。

因此,对于不提供 bulk_update 的 Django 版本,假设 Eugene 的答案中使用的数据相同,其中 headlines 是 pk -> 标题映射:

from django.db import transaction

with transaction.atomic():
    for entry_pk, headline in headlines.items():