我有一个包含超过2,500,000行和三列(相关)的Transactions表:id,company_id和created_at。 id标识事务,company_id标识收到它的公司,created_at是执行事务的时间戳。
我想要的是获得给定公司的每个连续交易对之间的差异列表。换句话说,如果我的表格如下:
id | company_id | created_at
------------------------------
01 | ab | 2016/01/02
02 | ab | 2016/01/03
03 | cd | 2016/01/03
04 | ab | 2016/01/03
05 | cd | 2016/01/04
06 | ab | 2016/01/05
(请注意,在给定公司的两次连续交易之间,其他公司可能会有任意数量的交易。)
然后我希望输出为:
diff | company_id
-------------------
01 | ab
00 | ab
01 | cd
02 | ab
(我在几天内写了created_at和diff值,但这只是为了便于可视化。)
我尝试使用this,但速度太慢了。
- 编辑:
“这个”是:
SELECT (B.created_at - A.created_at) AS diff, A.company_id
FROM Transactions A CROSS JOIN Transactions B
WHERE B.id IN (SELECT MIN (C.id) FROM Transactions C WHERE C.id > A.id AND C.company_id = A.company_id)
ORDER BY A.id ASC
答案 0 :(得分:1)
为了得到像你期望的那样的结果,我有时会使用MySQL用户定义的变量,并让MySQL按顺序执行行的处理,所以我可以比较当前的行到前一行的值。
为了有效地运行,我们需要一个合适的索引,以避免昂贵的“使用filesort”操作。 (我们需要company_id
顺序中的行,然后按id
顺序排列,所以这些行将是索引中的前两列。虽然我们在这里,但我们可能也一样包含created_at
列,并将其作为覆盖索引。
... ON Transactions (company_id, id, created_at)
然后我们可以尝试这样的查询:
SELECT t.diff
, t.company_id
FROM (
SELECT IF(r.company_id = @pv_company_id, r.created_at - @pv_created_at, NULL) AS diff
, IF(r.company_id = @pv_company_id, 1, 0) AS include_
, @pv_company_id := r.company_id AS company_id
, @pv_created_at := r.created_at AS created_at
FROM (SELECT @pv_company_id := NULL, @pv_created_at := NULL) i
CROSS
JOIN Transactions r
ORDER
BY r.company_id
, r.id
) t
WHERE t.include_
MySQL参考手册明确警告不要在语句中使用这样的用户定义变量。但是我们在MySQL 5.1和5.5中观察到的行为是一致的。 (最大的问题是MySQL的未来版本可能会使用不同的执行计划。)
作为i
别名的内联视图只是初始化一些用户定义的变量。在运行查询之前,我们可以轻松地将其作为单独的步骤。但我喜欢在语句本身中包含初始化权限,因此我不需要单独的SELECT / SET语句。
MySQL访问Transactions表,并首先处理ORDER BY
,从({_ 1}}开始按(company_id,id)顺序排序行。 (我们希望通过索引完成此操作,而不是通过昂贵的“使用文件排序”操作,这就是我们希望定义该索引的原因,Transactions
和company_id
作为前导列。
“技巧”是将当前行中的值保存到用户定义的变量中。处理下一行时,前一行的值在用户定义的变量中可用,用于执行比较(与前一行相同的company_id的当前行?)和执行计算({之间的差异) {1}}两行的值。
根据减法运算的用法,我假设id
列是整数/数字。也就是说,我假设created_at
不是 created_at
,created_at
或DATE
数据类型,因为我们不使用减法寻找差异的行动。
DATETIME
返回:
TIMESTAMP
(减法操作不会引发错误。但它返回的内容可能是意外的。在此示例中,它返回两个整数值SELECT a
, b
, a - b AS `subtraction`
, DATEDIFF(a,b) AS `datediff`
, TIMESTAMPDIFF(DAY,b,a) AS `tsdiff`
FROM ( SELECT DATE('2015-02-17') AS a
, DATE('2015-01-16') AS b
) t
和a b subtraction datediff tsdiff
---------- ---------- ----------- -------- ------
2015-02-17 2015-01-16 101 32 32
之间的差值,即不两个20150217
表达式之间的天数。)
修改强>
我注意到原始查询包含20150116
。如果需要按特定顺序返回的行,则可以在内联视图查询中包含该列,并在外部查询中使用DATE
。
ORDER BY
很抱歉,外部查询的ORDER BY
无法使用“使用文件排序”。
答案 1 :(得分:0)
试试这个
SELECT
t1.company_id,
t2.created_at - t1.created_at as diff
FROM Transactions t1
LEFT JOIN Transactions t2
on t2.created_at > t1.created_at
and t2.company_id = t1.company_id
答案 2 :(得分:0)
您可以使用游标功能。如果你打开一个光标,你会滑动每一行,每两行都会产生差异。我认为这种方法效率更高,因为滑动表的所有行而不是超过2百万的连接。
答案 3 :(得分:0)
尝试这个。
SELECT company_id,
(SELECT DATEDIFF(created_at,TR.created_at)
FROM transactions
WHERE id > TR.id AND company_id = TR.company_id LIMIT 0,1) AS diff
FROM transactions AS TR
HAVING diff is not null