在更新期间在MySQL中模拟LAG

时间:2017-02-17 10:19:07

标签: mysql lag

昨天有人问interesting question哪个需要使用LAG更新MySQL表。考虑以下输入表(左)和所需输出(右):

**INPUT**                                 **OUTPUT**
ID  TestDate    PerformanceStatus (PS)    ID  TestDate    PS  PreviousPerformanceStatus
1   15/03/2016  0                         1   15/03/2016  0   0
1   01/04/2016  2                         1   01/04/2016  2   0
1   05/05/2016  1                         1   05/05/2016  1   2
1   07/06/2016  1                         1   07/06/2016  1   1
2   15/03/2016  0                         2   15/03/2016  0   1
2   01/04/2016  2                         2   01/04/2016  2   0
2   05/05/2016  1                         2   05/05/2016  1   2
2   07/06/2016  3                         2   07/06/2016  3   1
2   23/08/2016  1                         2   23/08/2016  1   3

换句话说,目标是根据PreviousPerformanceStatus然后ID的顺序,将之前记录中存在的值分配给TestDate

@ spencer7593给出的接受答案使用了相关子查询。然而,首先突然出现的是使用用户变量。以下是我的回答:

SET @lag = 0;
UPDATE yourTable
SET PreviousPerformanceStatus = @lag,
    @lag:=PerformanceStatus
ORDER BY ID, TestDate

我被告知这个答案是不稳定的,但我想知道是否有人可以解释为什么可能会出现问题,在这种情况下会发生什么,最后我们可以做些什么来使用用户变量来模拟LAG。

据我了解,以下SELECT查询根本没有问题:

SELECT PerformanceStatus,
       @lag AS PreviousPerformanceStatus,
       @lag:=PerformanceStatus
FROM yourTable
ORDER BY ID, TestDate

但是,在执行UPDATE时,还需要考虑其他因素。

2 个答案:

答案 0 :(得分:1)

我认为你不能在update语句中设置变量。 这是我的推理 - 鉴于此

drop table if exists t;

create table t (ID int, TestDate date,   PerformanceStatus int, previousperformancestatus int);
insert into t values
(1 ,  '2016-03-15' , 0, null),                         
(1 ,  '2016-04-01' , 2, null),                         
(1 ,  '2016-05-05' , 1, null),                         
(1 ,  '2016-06-07' , 1, null),                         
(2 ,  '2016-03-15' , 0, null),                         
(2 ,  '2016-04-01' , 2, null),                         
(2 ,  '2016-05-05' , 1, null),                         
(2 ,  '2016-06-07' , 3, null),                         
(2 ,  '2016-08-23' , 1, null)
;

此代码失败

MariaDB [sandbox]> SET @lag = 0;
Query OK, 0 rows affected (0.00 sec)

MariaDB [sandbox]> UPDATE T
    -> SET previousPerformanceStatus = @lag ,
    ->     @lag:=PerformanceStatus
    -> ORDER BY ID, TestDate;
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MariaDB server version for the right syntax to use near '@lag:=PerformanceStatus
ORDER BY ID, TestDate' at line 3

评论@lag:= PerformanceStatus 此代码运行

MariaDB [sandbox]> SET @lag = 0;
Query OK, 0 rows affected (0.00 sec)

MariaDB [sandbox]> UPDATE T
    -> SET previousPerformanceStatus = @lag
    -> #,@lag:=PerformanceStatus
    -> ORDER BY ID, TestDate;
Query OK, 0 rows affected (0.01 sec)
Rows matched: 9  Changed: 0  Warnings: 0

由于代码至少运行且没有错误,并且手动https://dev.mysql.com/doc/refman/5.7/en/update.html声明“SET子句指示要修改的列”我对此的看法是您无法在更新语句中设置变量,因此无法使用模拟滞后这种方法。

答案 1 :(得分:0)

该线程中可接受的答案是错误的。我发现蚂蚁测试过的最好方法是使用CTE(WITH子句)并从CTE结果集中更新表。

spencer7593提出的SELECT可以工作,但是效率很低(在我的情况下,要花一分钟才能更新三列)。 UPDATE将失败,并显示一条错误消息,提示您无法更新SET目标的FROM子句中正在使用的表。

enter image description here

另一种更有效的方法是将CTE与LAG()结合使用,并从中获取更新的值。但是,如果没有其他简单或复合唯一键,则需要一个唯一键用作CTE和表之间的联接键。

-- Create the table as per question
drop table if exists student;

create table if not exists student (
pk int auto_increment,
id int not null,
TestDate date not null,
PerformanceStatus int not null,
PreviousPerformanceStatus int null default null,
primary key (pk)
) engine=innodb;

insert into student(id, TestDate, PerformanceStatus, PreviousPerformanceStatus)
values  (1, '2016-03-15', 0, null),
        (1, '2016-04-01', 2, null),
        (1, '2016-05-05', 1, null),
        (1, '2016-06-07', 1, null),
        (2, '2016-03-15', 0, null),
        (2, '2016-04-01', 2, null),
        (2, '2016-05-05', 1, null),
        (2, '2016-06-07', 3, null),
        (2, '2016-08-23', 1, null);


-- Update PreviousPerformanceStatus using lag()
with p as
(
    select pk, id, testdate, performancestatus, 
    LAG(performancestatus, 1, 0) OVER (
        PARTITION BY id
        ORDER BY id, testdate asc
    ) as PreviousPerformanceStatus
    from student
)
update student t
inner join p 
on p.pk = t.pk  
set     
t.PreviousPerformanceStatus = p.PreviousPerformanceStatus;

您可以将LAG()的第三个参数替换为null而不是零。 我发现该解决方案是其他几种可行解决方案中最有效的。