我试图尽可能多地转换原始SQL以使用Django ORM,而且我遇到了麻烦。我尝试执行与此类似的查询:
SELECT table.x,
MAX(table.y) AS y,
table.group_category,
table.group_number,
FROM table
GROUP BY table.group_category, table.group_number
到目前为止,我一直在尝试的是对此的一些排列:
q = MyModel.objects\
.filter(**filter_kwargs)\
.values('group_category', 'group_number')\
.annotate(y=Max('y'))\
.values('x','y','group_category','group_number')
但是,这似乎不起作用。如果我排除最后一个values()
,它会产生以下(大致):
SELECT MAX(table.y) AS y,
table.group_category,
table.group_number,
FROM table
GROUP BY table.group_category, table.group_number
它不会选择table.x
。但如果我包含最后一个values()
...
SELECT table.x,
MAX(table.y) AS y,
table.group_category,
table.group_number,
FROM table
GROUP BY x, y, table.group_category, table.group_number
按x, y
分组。所以显然似乎正在发生的是,所有的值都被替换,注释使用QuerySet给出的任何值(因为它被懒惰地评估了?)。 docs on aggregation and values似乎暗示按此顺序执行两个值函数会产生预期效果,我发现a writeup(从2013年开始)也表明了这一点。难道我做错了什么?这在Django ORM中仍然可行吗?有没有办法让我在不使用extra()或原始SQL的情况下执行此操作?为了演示目的,我尽量保持这个例子尽可能简单,但我的实际问题涉及到JOIN。这会让它变得复杂吗?
我能够有点弄清楚它,但是,它仍然没有产生我想要的SQL查询的最佳版本(上面)。为了获得我需要的结果,我改为执行查询以获取MAX(table.y)
,然后使用__in
作为子查询来查询子查询的值。子查询进行分组。
filtered = MyModel.objects.filter(**filter_kwargs)
subq = filtered\
.values('group_category', 'group_number')\
.annotate(y=Max('y'))\
.values_list('y', flat=True)
q = filtered\
.filter(y__in=subq)\
.values('x','y','group_category','group_number')
正如我所说的那样,正常运作,因为它可以获得我需要的结果。问题是它的比使用与GROUP BY不同的SELECT慢得多,因为它创建了一个相对庞大的子查询。我还没有将此标记为答案,因为它仍然没有产生符合我真正想要的查询。相反,它看起来像这样:
SELECT table.x,
table.y,
table.group_category,
table.group_number,
FROM table
WHERE y IN
(SELECT MAX(U0.y) AS y
FROM table U0
GROUP BY U0.group_category, U0.group_number)
此外,它看起来甚至不能使用extra(),因为它同样只会向SELECT子句添加已经属于QuerySet的列,即values()
。
事实证明,我的凌乱的解决方法不起作用,因为它获取所有y(1行)的MAX并返回它,而不是通过group_category和group_number将它们分组并使用它们的MAX
y
,所以我回到了绘图板。
答案 0 :(得分:0)
您似乎想要的是计算最大值,但不带任何分组就返回所有行。这就是Window函数的作用(可从Django 2.0获得):
models = MyModel.objects.annotate(max=Window(
expression=Max('y'),
partition_by=[F('group_category'), F('group_number')],))
但是为什么您使用GROUP BY
的方法不起作用?
在原始查询中,Django(和数据库;引用的SQL会引发语法错误)坚持按x
进行分组的原因是,如果按category
和{{1 }},对于number
和x
的一组行,您可能有多个category
值。数据库应该选择哪一个?它无法为您做出选择。
如果number
不重要,则可以忽略它。如果它很重要,但是对于一组x
和category
始终具有相同的值,则按number
分组查询不会对您造成伤害。如果有不同的x
值和很重要,则需要确定要选择哪个值(并相应地告知数据库)。 x
也是如此。