使用现有注释进行注释时,提高Django查询集性能

时间:2019-11-27 22:14:58

标签: django django-queryset query-performance

我有一个返回大量数据的查询集,可以按年份对其进行过滤,该查询集将返回约10万行,或者显示所有将带来约100万行的数据。

此注释的目的是生成一个xlsx电子表格。

模型表示,RelatedModelModelAnotherModel之间是很多的

Model:
    id
    field1
    field2
    field3

RelatedModel:
    foreign_key_model (Model)
    foreign_key_another (AnotherModel)

Queryset,如果存在关系将对其进行注释,则此注释非常慢,可能需要几分钟。

Model.objects.all().annotate(
    related_exists=Exists(RelatedModel.objects.filter(foreign_key_model=OuterRef('id'))),
    related_column=Case(
        When(related_exists=True, then=Value('The relation exists!')),
        When(related_exists=False, then=Value('The relation doesn't exist!')),
        default=Value('This is the default value!'),
        output_field=CharField(),
    )
).values_list(
    'related_column',
    'field1',
    'field2',
    'field3'
)

2 个答案:

答案 0 :(得分:4)

如果仅需要更改xlsx中True / False的显示方式-一种选择是仅使用一个related_exists BooleanField注释,然后在创建xlsx文档时(即在序列化程序中)自定义其转换方式。数据库应存储原始/未格式化的值,然后应用程序准备将其显示给用户。

要考虑的其他事项:

  • 索引以加速过滤。
  • 如果过滤后有数百万条记录,则在一个表中-也许可以考虑对表进行分区。

但是让我们看一下原始查询的原始sql。就像这样:

SELECT [model_fields],
       EXISTS([CLIENT_SELECT]) AS related_exists,
       CASE
       WHEN EXISTS([CLIENT_SELECT]) = true THEN 'The relation exists!'
       WHEN EXISTS([CLIENT_SELECT]) = true THEN 'The relation does not exist!'
       ELSE 'The relation exists!'
       END AS related_column
FROM model;

现在,我们可以看到存在的CLIENT_SELECT存在的嵌套查询有3次。即使完全相同,也可以执行最少2次,最多3次。数据库可能会将其优化为快于3倍,但仍然不是1倍。

首先,EXISTS返回True或False,我们只需要检查一下它是否为True,即可将'The relation does not exist!'设为默认值。

    related_column=Case(
        When(related_exists=True, then=Value('The relation exists!')),
        default=Value('The relation does not exist!')

为什么related_column再次执行相同的选择却不采用related_exists的值?

因为我们在计算另一列时不能引用计算所得的列-这是django知道的数据库级约束,并且重复了表达式。

等等,那么我们实际上不需要related_exists列,只需将related_column留在CASE语句中,并保留1个存在的子查询。

Django来了-直到3.0,我们才能在过滤器中使用表达式而不先对其进行注释。

因此,我们的情况是这样的:为了在Exist中使用When,我们首先需要将其添加为注释,但不会用作参考,而是表达式的完整副本。


好消息!

Django 3.0起,我们可以直接在QuerySet过滤器中使用直接输出BooleanField的表达式,而无需先注释Exists是此类BooleaField表达式之一。

Model.objects.all().annotate(
    related_column=Case(
        When(
            Exists(RelatedModel.objects.filter(foreign_key_model=OuterRef('id'))),
            then=Value('The relation exists!'),
        ),
        default=Value('The relation doesn't exist!'),
        output_field=CharField(),
    )
)

只有一个嵌套的select和一个带注释的字段。


Django 2.1,2.2

这是commit,它确定了布尔表达式的允许量,尽管之前已为其添加了许多前提条件。其中之一是表达式对象上存在conditional属性,并检查该属性。

因此,尽管不推荐未测试,但对于Django 2.1、2.2来说,它似乎几乎没有什么作用(在没有conditional检查之前,将需要更多的侵入性更改):

  • 创建Exists表达式实例
  • 猴子用conditional = True修补
  • 将其用作When语句中的条件
related_model_exists = Exists(RelatedModel.objects.filter(foreign_key_model=OuterRef('id')))

setattr(related_model_exists, 'conditional', True)

Model.objects.all().annotate(
    related_column=Case(
        When(
            relate_model_exists,
            then=Value('The relation exists!'),
        ),
        default=Value('The relation doesn't exist!'),
        output_field=CharField(),
    )
)


相关检查

relatedmodel_set__isnull=True 检查出于以下几个原因:

  • 它执行LEFT OUTER JOIN-比EXISTS效率低
  • 它执行LEFT OUTER JOIN-它联接表,这使其仅适用于filter()条件(不适用于注释-何时),并且仅适用于OneToOne或OneToMany(一个在relatedmodel一侧)关系

答案 1 :(得分:2)

您可以将查询大大简化为:

from django.db.models import Count
Model.objects.all().annotate(
    related_column=Case(
        When(relatedmodel_set__isnull=True, then=Value("The relation doesn't exist!")), 
        default=Value("The relation exists!"), 
        output_field=CharField()
    )
)

relatedmodel_set是外键上的related_name