我试图了解使用MySQL的SQL查询的性能。 仅使用PK上的索引,查询无法在超过10分钟内完成。 我已经在where子句(时间戳,主机名,路径,类型)中使用的所有列上添加了索引,并且查询现在在大约50秒内完成 - 但是对于看起来不太复杂的查询,这似乎仍然很长。 / p>
所以,我想了解导致此问题的查询是什么。我的假设是我的内部子查询在某种程度上导致了必要的比较次数的爆炸。
涉及两个表:
存储(~5,000行/ 4.6MB)和计算机(12行,<4k)
查询如下:
SELECT T.hostname, T.path, T.used_pct,
T.used_gb, T.avail_gb, T.timestamp, machines.type AS type
FROM storage AS T
JOIN machines ON T.hostname = machines.hostname
WHERE timestamp = ( SELECT max(timestamp) FROM storage AS st
WHERE st.hostname = T.hostname AND
st.path = T.path)
AND (machines.type = 'nfs')
ORDER BY used_pct DESC
查询的EXPLAIN EXTENDED返回以下内容:
id select_type table type possible_keys key key_len ref rows filtered Extra
1 PRIMARY machines ref hostname,type type 768 const 1 100.00 Using where; Using temporary; Using filesort
1 PRIMARY T ref fk_hostname fk_hostname 768 monitoring.machines.hostname 4535 100.00 Using where
2 DEPENDENT SUBQUERY st ref fk_hostname,path path 1002 monitoring.T.path 648 100.00 Using where
注意到第1行的“额外”列包含“使用filesort”和问题: MySQL explain Query understanding 声明“使用filesort是一种排序算法,MySQL无法使用索引进行排序,因此无法在内存中进行完整排序。”
此查询的性质是什么导致性能下降?
为什么MySQL需要'filesort'用于此查询?
答案 0 :(得分:3)
索引不会被填充,只要您创建它们就会在那里。这就是为什么插入和更新变得越慢,你在表上拥有的索引就越多。
您的查询在第一次运行后会快速运行,因为查询的整个结果都会放入缓存中。要查看查询有多快而不使用缓存,您可以执行
SELECT SQL_NO_CACHE T.hostname ...
MySQL通常会为filesort
使用ORDER BY
,或者在您的情况下确定时间戳的最大值。 MySQL不是通过所有可能的值并记住哪个值最大,而是对降序值进行排序并选择第一个值。
那么,为什么你的查询速度慢?有两件事情进入了我的视线。
1)您的子查询
WHERE timestamp = ( SELECT max(timestamp) FROM storage AS st
WHERE st.hostname = T.hostname AND
st.path = T.path)
为每个(主机名,路径)进行评估。尝试使用时间戳索引(顺便说一下,我不鼓励像关键字/数据类型那样命名列)。如果仅此一点没有帮助,请尝试重写您的查询。 MySQL手册中有两个很好的例子:The Rows Holding the Group-wise Maximum of a Certain Column。
2)这是一个小问题,但似乎你正在加入char / varchar字段。数字/ ID要快得多。