Question

我试图尽可能多地转换原始SQL以使用Django ORM，而且我遇到了麻烦。我尝试执行与此类似的查询：

SELECT table.x,
      MAX(table.y) AS y,
      table.group_category,
      table.group_number,
FROM table
GROUP BY table.group_category, table.group_number

到目前为止，我一直在尝试的是对此的一些排列：

q = MyModel.objects\
    .filter(**filter_kwargs)\
    .values('group_category', 'group_number')\
    .annotate(y=Max('y'))\
    .values('x','y','group_category','group_number')

但是，这似乎不起作用。如果我排除最后一个values()，它会产生以下（大致）：

SELECT MAX(table.y) AS y,
      table.group_category,
      table.group_number,
FROM table
GROUP BY table.group_category, table.group_number

它不会选择table.x。但如果我包含最后一个values() ...

SELECT table.x,
      MAX(table.y) AS y,
      table.group_category,
      table.group_number,
FROM table
GROUP BY x, y, table.group_category, table.group_number

按x, y分组。所以显然似乎正在发生的是，所有的值都被替换，注释使用QuerySet给出的任何值（因为它被懒惰地评估了？）。 docs on aggregation and values似乎暗示按此顺序执行两个值函数会产生预期效果，我发现a writeup（从2013年开始）也表明了这一点。难道我做错了什么？这在Django ORM中仍然可行吗？有没有办法让我在不使用extra()或原始SQL的情况下执行此操作？为了演示目的，我尽量保持这个例子尽可能简单，但我的实际问题涉及到JOIN。这会让它变得复杂吗？

更新1

我能够有点弄清楚它，但是，它仍然没有产生我想要的SQL查询的最佳版本（上面）。为了获得我需要的结果，我改为执行查询以获取MAX(table.y)，然后使用__in作为子查询来查询子查询的值。子查询进行分组。

filtered = MyModel.objects.filter(**filter_kwargs)

subq = filtered\
    .values('group_category', 'group_number')\
    .annotate(y=Max('y'))\
    .values_list('y', flat=True)

q = filtered\
    .filter(y__in=subq)\
    .values('x','y','group_category','group_number')

正如我所说的那样，正常运作，因为它可以获得我需要的结果。问题是它的比使用与GROUP BY不同的SELECT慢得多，因为它创建了一个相对庞大的子查询。我还没有将此标记为答案，因为它仍然没有产生符合我真正想要的查询。相反，它看起来像这样：

SELECT table.x,
      table.y,
      table.group_category,
      table.group_number,
FROM table
WHERE y IN 
    (SELECT MAX(U0.y) AS y
    FROM table U0
    GROUP BY U0.group_category, U0.group_number)

此外，它看起来甚至不能使用extra()，因为它同样只会向SELECT子句添加已经属于QuerySet的列，即values()。

更新2

事实证明，我的凌乱的解决方法不起作用，因为它获取所有y（1行）的MAX并返回它，而不是通过group_category和group_number将它们分组并使用它们的MAX y，所以我回到了绘图板。

Answer 1

您似乎想要的是计算最大值，但不带任何分组就返回所有行。这就是Window函数的作用（可从Django 2.0获得）：

models = MyModel.objects.annotate(max=Window(
    expression=Max('y'),
    partition_by=[F('group_category'), F('group_number')],))

但是为什么您使用GROUP BY的方法不起作用？

在原始查询中，Django（和数据库；引用的SQL会引发语法错误）坚持按x进行分组的原因是，如果按category和{{1 }}，对于number和x的一组行，您可能有多个category值。数据库应该选择哪一个？它无法为您做出选择。

如果number不重要，则可以忽略它。如果它很重要，但是对于一组x和category始终具有相同的值，则按number分组查询不会对您造成伤害。如果有不同的x值和很重要，则需要确定要选择哪个值（并相应地告知数据库）。 x也是如此。

Django ORM - 如何使用values（）。annotate（）。values（）执行复杂的GROUP BY

更新1

更新2

1 个答案: