“分组依据”是否自动保证“按订单”?

时间:2015-01-26 12:09:30

标签: sql database group-by database-agnostic

“group by”子句是否自动保证结果将按该键排序?换句话说,写下来就足够了:

select * 
from table
group by a, b, c

或者必须写

select * 
from table
group by a, b, c
order by a, b, c

我知道,例如在MySQL中我没有必要,但我想知道我是否可以依赖它在SQL实现中。有保证吗?

6 个答案:

答案 0 :(得分:19)

group by不会对数据进行必要的排序。数据库旨在尽可能快地获取数据,并且只在必要时进行排序。

如果您需要保证订单,请添加order by

答案 1 :(得分:0)

绝对不是。我经历过这样的情况,一旦我的一个查询突然开始返回无序结果,表格中的数据就会增长。

答案 2 :(得分:0)

我试了一下。 Adventuredn db of Msdn。

select HireDate, min(JobTitle)
from AdventureWorks2016CTP3.HumanResources.Employee
group by HireDate

Resuts:

2009-01-10生产技师 - WC40

2009-01-11应用专家

2009-01-12助理首席财务官

2009-01-13生产技术员 - WC50<

它返回hiredate的排序数据,但在任何情况下都不依赖GROUP BY到SORT。

例如

;索引可以更改此排序数据。

我添加了以下索引(hiredate,jobtitle)

CREATE NONCLUSTERED INDEX NonClusturedIndex_Jobtitle_hireddate ON [HumanResources].[Employee]
(
    [JobTitle] ASC,
    [HireDate] ASC
)

结果将随同一个选择查询而变化;

2006-06-30生产技术员 - WC60

2007-01-26营销助理

2007-11-11工程经理

2007-12-05高级工具设计师

2007-12-11工具设计师

2007-12-20营销经理

2007-12-26制作主管 - WC60

您可以在以下地址下载Adventureworks2016

https://www.microsoft.com/en-us/download/details.aspx?id=49502

答案 3 :(得分:0)

  

group by的有效实现将通过在内部对数据进行排序来执行分组。这就是为什么一些RDBMS在分组时返回排序输出的原因。然而,SQL规范并没有强制要求这种行为,所以除非RDBMS供应商明确记录,否则我不会打赌它(明天)。 OTOH,如果RDBMS隐式地进行排序,它也可能足够智能,然后通过优化(远离)冗余顺序。 @jimmyb

使用PostgreSQL证明这个概念的例子

创建一个包含1M记录的表,其中包含从今天开始的一天中的随机日期 - 90并按日期编制索引

CREATE TABLE WITHDRAW AS
  SELECT (random()*1000000)::integer AS IDT_WITHDRAW,
    md5(random()::text) AS NAM_PERSON,
    (NOW() - ( random() * (NOW() + '90 days' - NOW()) ))::timestamp AS DAT_CREATION, -- de hoje a 90 dias atras
    (random() * 1000)::decimal(12, 2) AS NUM_VALUE
  FROM generate_series(1,1000000);

CREATE INDEX WITHDRAW_DAT_CREATION ON WITHDRAW(DAT_CREATION);

按日期截断按日期分组,限制按日期在两天范围内选择

EXPLAIN 
SELECT
    DATE_TRUNC('DAY', W.dat_creation), COUNT(1), SUM(W.NUM_VALUE)
FROM WITHDRAW W
WHERE W.dat_creation >= (NOW() - INTERVAL '2 DAY')::timestamp
AND W.dat_creation < (NOW() - INTERVAL '1 DAY')::timestamp
GROUP BY 1

HashAggregate  (cost=11428.33..11594.13 rows=11053 width=48)
  Group Key: date_trunc('DAY'::text, dat_creation)
  ->  Bitmap Heap Scan on withdraw w  (cost=237.73..11345.44 rows=11053 width=14)
        Recheck Cond: ((dat_creation >= ((now() - '2 days'::interval))::timestamp without time zone) AND (dat_creation < ((now() - '1 day'::interval))::timestamp without time zone))
        ->  Bitmap Index Scan on withdraw_dat_creation  (cost=0.00..234.97 rows=11053 width=0)
              Index Cond: ((dat_creation >= ((now() - '2 days'::interval))::timestamp without time zone) AND (dat_creation < ((now() - '1 day'::interval))::timestamp without time zone))

使用较大的限制日期范围,它会选择应用 SORT

EXPLAIN 
SELECT
    DATE_TRUNC('DAY', W.dat_creation), COUNT(1), SUM(W.NUM_VALUE)
FROM WITHDRAW W
WHERE W.dat_creation >= (NOW() - INTERVAL '60 DAY')::timestamp
AND W.dat_creation < (NOW() - INTERVAL '1 DAY')::timestamp
GROUP BY 1

GroupAggregate  (cost=116522.65..132918.32 rows=655827 width=48)
  Group Key: (date_trunc('DAY'::text, dat_creation))
  ->  Sort  (cost=116522.65..118162.22 rows=655827 width=14)
        Sort Key: (date_trunc('DAY'::text, dat_creation))
        ->  Seq Scan on withdraw w  (cost=0.00..41949.57 rows=655827 width=14)
              Filter: ((dat_creation >= ((now() - '60 days'::interval))::timestamp without time zone) AND (dat_creation < ((now() - '1 day'::interval))::timestamp without time zone))

只是在最后添加ORDER BY 1(没有显着差异)

GroupAggregate  (cost=116522.44..132918.06 rows=655825 width=48)
  Group Key: (date_trunc('DAY'::text, dat_creation))
  ->  Sort  (cost=116522.44..118162.00 rows=655825 width=14)
        Sort Key: (date_trunc('DAY'::text, dat_creation))
        ->  Seq Scan on withdraw w  (cost=0.00..41949.56 rows=655825 width=14)
              Filter: ((dat_creation >= ((now() - '60 days'::interval))::timestamp without time zone) AND (dat_creation < ((now() - '1 day'::interval))::timestamp without time zone))

PostgreSQL 10.3

答案 4 :(得分:0)

这取决于数据库供应商。

例如PostgreSQL不会自动对分组结果进行排序。 在这里,您必须使用order by来对数据进行排序。

但是Sybase和Microsoft SQL Server可以。在这里,您可以使用order by更改默认排序。

答案 5 :(得分:-1)

这取决于记录的数量。当记录较少时,分组自动排序。当记录多于(大于15)时,需要添加Order by子句