我有一张200万行的表格。我有两个索引(状态,性别)和(生日)。
我觉得奇怪的是这个查询需要3.6秒或更长时间 QUERY N°1
initializeFunctionInfoPass(Registry);
同样的: QUERY N°2
SELECT COUNT(*) FROM ts_user_core
WHERE birthday BETWEEN '1980-01-01' AND '1985-01-01'
AND status='ok' AND gender='female';
此查询耗时0.140秒 QUERY N°3
SELECT COUNT(*) FROM ts_user_core
WHERE status='ok' AND gender='female'
AND birthday between '1980-01-01' AND '1985-01-01';
此查询也需要0.2秒 QUERY N°4
select count(*) from ts_user_core where (birthday between '1990-01-01' and '2000-01-01');
我希望第一个查询更快,这种行为怎么可能?我无法处理这么多查询的时间。
这里的结果是:
我知道我可以添加一个包含3列的新索引,但有没有办法在不为每个where子句添加索引的情况下获得更快的查询?
感谢您的建议
答案 0 :(得分:2)
有没有办法优化查询而不为每个可能的where子句添加索引?
是的,有点。但它需要了解INDEX如何运作。
让我们看看你目前提供的所有SELECTs
。
SELECT
构建最佳索引,请从= constant
子句中的所有WHERE
项开始。将这些列以任何顺序放入索引中。这给了我们INDEX(status, gender, ...)
或INDEX(gender, status, ...)
,但他们之间没有决定(还)。ORDER BY
。在您的前几个SELECTs
中,这将是birthday
。现在我们有INDEX(status, gender, birthday)
或INDEX(gender, status, birthday)
。这些都是最好的'对于前两个SELECTs
。这些索引对#4:select count(*) from ts_user_core where status='ok' and gender='female'
的效果也很好。所以不需要额外的索引。
现在,让我们开始#3:select count(*) from ts_user_core where (birthday between '1990-01-01' and '2000-01-01');
INDEX(birthday)
基本上是唯一的选择。现在,假设我们还有... WHERE status='foo';
(没有gender
)。这将迫使我们选择INDEX(status, gender, birthday)
而不是它的变体。
结果:2个好的索引来处理所有5个选择:
INDEX(status, gender, birthday)
INDEX(birthday)
建议:如果最终有超过5 INDEXes
或其中包含超过5列的索引,则缩短某些索引可能是明智之举。事情变得非常模糊。如果你想向我展示十几个现实的'索引,我将引导您完成它。
其他评论的注释:
3.6
vs 0.140
闻起来像缓存索引。)SQL_NO_CACHE
。EXPLAIN
平原;我们可以帮你读一读。INDEX(a,b,c)
,则不需要INDEX(a,b)
。答案 1 :(得分:1)
在第一种情况下,您有两个索引,当MySQL优化器读取您的查询时,它必须找出哪个计划更优化。
因为您有两个索引,优化器会花更多的时间来决定哪个计划更优化,因为它会创建更多可能的执行计划。
在第二种情况下,MySQL在第一个索引页面上的位置包括状态' ok'并且在性别未更改为“男性”的情况下阅读所有页面,这比第一种情况更快。
尝试使用WHERE
子句中的三列创建一个索引。
答案 2 :(得分:1)
在您的日期范围内执行范围扫描后,mysql很可能会终止您的索引使用情况。
在mysql客户端中运行以下查询以查看它如何使用您的索引:
EXPLAIN EXTENDED
SELECT COUNT(*) FROM ts_user_core
WHERE birthday BETWEEN '1980-01-01' AND '1985-01-01'
AND status='ok' AND gender='female';
SHOW INDEX IN ts_user_core;
我猜测您的索引或主键在索引中的状态和/或性别之前有生日,导致范围扫描。在执行范围扫描后,Mysql将终止所有进一步的索引使用。
如果是这种情况,您可以重新安排索引中的列以在生日之前移动状态和性别,或者在生日之前为状态和性别创建专门针对此查询的新索引。
然而,在重新安排现有索引之前,请确保我们的系统不会运行任何其他查询,具体取决于当前的排序。
答案 3 :(得分:1)
no1和no2之间的区别在于缓存的存储数据。如果您查看了执行计划,您会发现它们完全相同。
从ts_user_core中选择count(*)('1990-01-01'和'2000-01-01'之间的生日);
生日时索引不会查看表数据(类似于状态和性别)。但是MySQL每个表只能使用一个索引 - 所以对于使用两个谓词的查询,它将选择更具体的索引(在EXPLAIN中显示)来解析谓词,然后获取相应的表行(昂贵的操作)来解析第二个谓词
如果要么添加一个包含所有3列的索引,那么您将拥有复合查询的覆盖索引。或者,添加主键(您没有告诉我们表格的结构,我会假设“id”)和......
SELECT COUNT(*)
FROM ts_user_core bday
INNER JOIN ts_user_core stamf
ON bday.id=stamf.id
WHERE bday.birthday BETWEEN '1980-01-01' AND '1985-01-01'
AND stamf.status='ok' AND stamf.gender='female';
旁注:
status ='ok'AND gender ='female'
具有一小组可能值和/或偏斜数据的列(使某些值比其他值更频繁)往往不能很好地作为索引,尽管这里的统计数据表明这可能不是问题。 / p>