我正在尝试在包含大约500,000条记录和大约50或60列的表中创建查询。我需要的是将这些记录整理成组并选择每组中的最大记录。
为了简化问题,我有一个表格如下
+----+-------------+----------+--------+
| id | external_id | group_id | mypath |
+----+-------------+----------+--------+
| 1 | 1003 | 1 | a |
| 2 | 1004 | 2 | b |
| 3 | 1005 | 2 | c |
+----+-------------+----------+--------+
简单组by如下
select * from temp GROUP BY group_id
返回
+----+-------------+----------+--------+
| id | external_id | group_id | mypath |
+----+-------------+----------+--------+
| 1 | 1003 | 1 | a |
| 2 | 1004 | 2 | b |
+----+-------------+----------+--------+
很好,但不是我想要的。我想要的是每组中max enternal_id的完整记录。换句话说
+----+-------------+----------+--------+
| id | external_id | group_id | mypath |
+----+-------------+----------+--------+
| 1 | 1003 | 1 | a |
| 3 | 1005 | 2 | c |
+----+-------------+----------+--------+
不知何故,我希望在这里放一个max(external_id)语句来过滤所需的内容,但到目前为止我所有的调查都失败了。一些指导意见将不胜感激。重要的是,当返回max(external_id)时,选择整个记录作为路径列的不同。
答案 0 :(得分:19)
http://www.xaprb.com/blog/2006/12/07/how-to-select-the-firstleastmax-row-per-group-in-sql/
的大量信息这在MySQL中一直是个烦人的问题。有很多方法,例如将几个字段连接在一起(从external_id开始),然后选择它的MAX(),然后将它分开。
我建议你使用派生表。第一个表(t1)派生自一个简单的查询,您可以在其中标识MAX(external_id)
,然后从中加入以获取其余数据。
仅在external_id
独一无二strong>
SELECT
t1.group_id, some_table.id, some_table.mypath
FROM
(
SELECT group_id, MAX(external_id) AS external_id
FROM some_table
GROUP BY group_id
) as t1
INNER JOIN
sometable ON t1.external_id = sometable.external_id
WHERE ...