" GROUP BY" MariaDB的行为与MySQL

时间:2017-02-18 07:42:17

标签: mysql database group-by sql-order-by mariadb

我多次被告知,相同的查询MariaDB将像在MySQL上一样工作......直到我遇到这个问题。

最近,我正在尝试将应用程序从 MySQL (InnoDB)克隆到 MariaDB (XtraDB)。 尽管MariaDB运行MySQL查询而无需更改任何内容,但我惊讶地发现相同的查询在两个平台上的表现实际上完全不同,特别是在 ORDER BY GROUP BY 中。

举个例子:

    MyTable
    =======
    +----+----------+---------------------+-----------+
    | id | parentId | creationDate        | name      |
    +----+----------+---------------------+-----------+
    | 1  | 2357     | 2017-01-01 06:03:40 | Anna      |
    +----+----------+---------------------+-----------+
    | 2  | 5480     | 2017-01-02 07:13:20 | Becky     |
    +----+----------+---------------------+-----------+
    | 3  | 2357     | 2017-01-03 08:20:12 | Christina |
    +----+----------+---------------------+-----------+
    | 4  | 2357     | 2017-01-03 08:20:15 | Dorothy   |
    +----+----------+---------------------+-----------+
    | 5  | 5480     | 2017-01-04 09:25:45 | Emma      |
    +----+----------+---------------------+-----------+
    | 6  | 1168     | 2017-01-05 10:30:10 | Fiona     |
    +----+----------+---------------------+-----------+
    | 7  | 5480     | 2017-01-05 10:33:23 | Gigi      |
    +----+----------+---------------------+-----------+
    | 8  | 1168     | 2017-01-06 12:46:34 | Heidi     |
    +----+----------+---------------------+-----------+
    | 9  | 1168     | 2017-01-06 12:46:34 | Irene     |
    +----+----------+---------------------+-----------+
    | 10 | 2357     | 2017-01-07 14:58:37 | Jane      |
    +----+----------+---------------------+-----------+
    | 11 | 2357     | 2017-01-07 14:58:37 | Katy      |
    +----+----------+---------------------+-----------+

基本上我想从查询中得到的是每个GROUPing的最新记录(即parentId)。最新的,我的意思是MAX(creationDate)和MAX(id

因此,对于上面的例子,由于只有三个不同的parentId值,我希望得到:

    +----+----------+---------------------+-----------+
    | id | parentId | creationDate        | name      |
    +----+----------+---------------------+-----------+
    | 11 | 2357     | 2017-01-07 14:58:37 | Katy      |
    +----+----------+---------------------+-----------+
    | 9  | 1168     | 2017-01-06 12:46:34 | Irene     |
    +----+----------+---------------------+-----------+
    | 7  | 5480     | 2017-01-05 10:33:23 | Gigi      |
    +----+----------+---------------------+-----------+

最初,该应用程序的查询类似于这种方式:

SELECT * FROM
  ( SELECT * FROM `MyTable` WHERE `parentId` IN (...)
    ORDER BY `creationDate` DESC, `id` DESC ) AS `t` 
  GROUP BY `parentId`;

MySQL 上,这是有效的,因为内部查询将按顺序排序,然后外部查询从内部查询的结果中获取每个GROUP的第一个。外部查询基本上遵循内部查询的顺序。

但是在 MariaDB 上,外部查询将忽略内部查询结果的排序。我在MariaDB上得到了这个:

    +----+----------+---------------------+-----------+
    | id | parentId | creationDate        | name      |
    +----+----------+---------------------+-----------+
    | 1  | 2357     | 2017-01-01 06:03:40 | Anna      |
    +----+----------+---------------------+-----------+
    | 2  | 5480     | 2017-01-02 07:13:20 | Becky     |
    +----+----------+---------------------+-----------+
    | 6  | 1168     | 2017-01-05 10:30:10 | Fiona     |
    +----+----------+---------------------+-----------+

为了在MariaDB上实现相同的行为,我想出了类似的东西。 (不确定这是否准确。)

SELECT `t1`.* FROM `MyTable` `t1` LEFT JOIN `MyTable` `t2` ON (
        `t1`.`parentId` = `t2`.`parentId`
    AND `t2`.`parentId` IN (...)
    AND `t1`.`creationDate` <= `t2`.`creationDate`
    AND `t1`.`id` < `t2`.`id`)
  ) WHERE `t2`.`id` IS NULL;

现在的问题是......如果我要重写查询,我必须重写数百个...而且它们之间有点不同。

我想知道这里是否有人有任何想法可以让我做出最少的改变。

提前谢谢大家。

2 个答案:

答案 0 :(得分:2)

是的,这是一个仅限链接的答案。但链接是MariaDB网站。

以下是对“不兼容性”的另一种讨论:https://mariadb.com/kb/en/mariadb/group-by-trick-has-been-optimized-away/

从技术上讲,MySQL实现了Ansi标准的扩展。很久以后,它决定删除它,所以我认为你会发现MySQL已经迁移到MariaDB。

以下列出了“快速”分组最大化的方法,这可能是您尝试做的事情:https://mariadb.com/kb/en/mariadb/groupwise-max-in-mariadb/

答案 1 :(得分:1)

您的第一个查询可能在MySQL中有效,但其行为未记录:您按groupid进行分组,但是您选择带有*的非聚合列,并且任何这些非聚合列的值为< strong> undefined - 如果你得到的值是遇到的第一个值,那只是一个“运气问题”。

确实,即使它不能被认为是正确的,在MySQL上我从未见过这个“技巧”失败(在stackoverflow上有很多赞成的答案建议你使用这个技巧),但是MariaDB使用了不同的优化引擎,你不能依赖MySQL无证的行为。

您的第二个查询需要稍微调整一下:

and (
  `t1`.`creationDate` < `t2`.`creationDate`
  or (
    `t1`.`creationDate` = `t2`.`creationDate`
     and `t1`.`id` < `t2`.`id`
  )
)

因为首先按创建日期排序,然后如果多个记录共享相同的创建日期,则获得ID最高的记录。

还有其他方法可以编写相同的查询,例如

select * from mytable
where id in (
  select max(m.id)
  from mytable m inner join (
    select parentID, max(creationDate) as max_cd
    from mytable
    group by ParentID
  ) t on m.parentID = t.parentID and m.creationDate = t.max_cd
  group by m.parentID, m.creationDate
)

但每个查询都需要单独重写。

修改

您的示例稍微复杂一些,因为您通过creationDate和id进行排序。让我解释一下。首先要做的是,对于每个父ID,您必须获得最后一个creationDate:

select parentID, max(creationDate) as max_cd
from MyTable
group by parentID

然后对于每个max creationDate,你必须得到最高的id:

select t.parentID, t.max_cd, max(t.id) as max_id
from
  MyTable t inner join (  
    select parentID, max(creationDate) as max_cd
    from MyTable
    group by parentID
  ) t1 on t.parentID = t1.parentID and t.creationDate = t1.max_cd
group t.parentID, t.max_cd

然后你必须得到这个查询返回id的所有记录。在这个特定的上下文中,与表本身的LEFT JOIN应该更容易编写并且更高效。