尝试在海量数据上更有效地使用索引。
我有一个开源应用程序,可以将数百万条记录记录到MySQL数据库中。我已经在Web开发中使用了多年的mysql数据库,并且我对选择有效的字段类型,索引为何如何/如何有用的基础知识等了解得足够多 - 但是我们的应用程序日志的数据量很大,而且很难准确地预测将要查询哪些列让我有点在水下。
应用程序记录玩家的事件。我们有一个非常先进的净化系统,但有些服务器非常繁忙,仅仅八周就有5000万条记录。
在该大小,使用我们现有索引的事件,查询可能仍需要30-90秒。
主表架构(减去现有索引):
CREATE TABLE IF NOT EXISTS `prism_data` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`epoch` int(10) unsigned NOT NULL,
`action_id` int(10) unsigned NOT NULL,
`player_id` int(10) unsigned NOT NULL,
`world_id` int(10) unsigned NOT NULL,
`x` int(11) NOT NULL,
`y` int(11) NOT NULL,
`z` int(11) NOT NULL,
`block_id` mediumint(5) DEFAULT NULL,
`block_subid` mediumint(5) DEFAULT NULL,
`old_block_id` mediumint(5) DEFAULT NULL,
`old_block_subid` mediumint(5) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
WHERE
条件通常包括:
world_id/x/y/z
坐标(查询默认为用户周围的半径,因此几乎总是使用坐标)epoch
(所有查询默认为过去三天,用户需要在更长的时间范围内覆盖此内容)action_id
和/或player_id
(有一半时间,用户正在寻找具体操作或特定玩家造成的操作的人。) GROUP BY
- 默认情况下,应用程序按特定字段分组,以便用户不会看到同一个播放器/操作/块的100个重复事件,他们只能看到一个带有计数的记录。
action_id
,player_id
,block_id
,DATE(FROM_UNIXTIME(epoch))
ORDER BY
始终为prism_data.epoch DESC, x ASC, z ASC, y ASC, id DESC
。 epoch
是用户首先查看最近的事件。剩下的就是“回滚”引擎按正确的顺序排列。
以下是没有订单/群组的示例查询:
SELECT *
FROM prism_data
INNER JOIN prism_players p ON p.player_id = prism_data.player_id
INNER JOIN prism_actions a ON a.action_id = prism_data.action_id
INNER JOIN prism_worlds w ON w.world_id = prism_data.world_id
LEFT JOIN prism_data_extra ex ON ex.data_id = prism_data.id
WHERE w.world = 'DeuxTiersMondes'
AND (prism_data.x BETWEEN 668 AND 868)
AND (prism_data.y BETWEEN -33 AND 167)
AND (prism_data.z BETWEEN 358 AND 558);
LIMIT 1000;
使用索引:INDEX
位置(
world_id ,
x ,
z ,
y );
仍然需要15秒才能找到1000行(或50秒来查找所有64735)。
该查询的解释:
+----+-------------+------------+--------+---------------+----------+---------+--------------------------------+------+--------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+------------+--------+---------------+----------+---------+--------------------------------+------+--------------------------+
| 1 | SIMPLE | w | ref | PRIMARY,world | world | 767 | const | 1 | Using where; Using index |
| 1 | SIMPLE | prism_data | ref | location | location | 4 | minecraft.w.world_id | 6155 | Using index condition |
| 1 | SIMPLE | a | eq_ref | PRIMARY | PRIMARY | 4 | minecraft.prism_data.action_id | 1 | NULL |
| 1 | SIMPLE | p | eq_ref | PRIMARY | PRIMARY | 4 | minecraft.prism_data.player_id | 1 | NULL |
| 1 | SIMPLE | ex | ref | data_id | data_id | 4 | minecraft.prism_data.id | 1 | NULL |
+----+-------------+------------+--------+---------------+----------+---------+--------------------------------+------+--------------------------+
在我看来,寻找这个特定的价值应该快得多。我们甚至没有对此查询进行排序/分组。
我的问题:
我认为为上面列出的每个常见条件设计索引是最有意义的。即一个组合world_id/x/y/z
的索引,一个组合action_id/player_id
而另一个组合epoch
的索引。对于某些查询,这种方法很有效,但对于其他查询则不然。对于使用world_id, player_id, and epoch
的查询,它只选择了world_id/x/y/z
索引。
world_id/player_id/epoch
的一个索引?我无法确定mysql使用什么逻辑来选择哪个索引最适合,但我假设如果索引使用了更多mysql需要的列,它将选择那个。如果这有助于我的查询,那么写一点点就是值得的。Using filesort
,我知道这是表现的主要痛点。很抱歉阅读不久。
我正在对我们使用不同索引设置的5个最常见查询进行大量分析,但感觉我可能缺少一些基础知识。在我继续之前,我宁愿让一些真正的专家在我学到的东西上学习。
答案 0 :(得分:1)
只是一个简单的说明,因为这种事情一次又一次地被看到:prism_worlds
上的JOIN是不必要的,因为你(很可能)不需要该表中的数据。您基本上要求数据库“给我一个名称等于'某事'的世界名称”。改为使用标量子查询。
在prism_worlds.world
上创建一个唯一索引并运行查询
SELECT *
FROM prism_data
WHERE prism_data.world_id = (SELECT w.world_id FROM prism_worlds AS w WHERE w.world = 'DeuxTiersMondes')
LIMIT 1000;
优化器会发现prism_data.world_id
被约束为单个常量值。 MySQL将提前运行查询以找出此值并在查询中使用它。有关EXPLAIN
- 已执行的子查询,请参阅const
。
关于prism_data.x
,.y
和.z
:您可能希望为其创建几何列和空间索引。如果您需要坚持单独的值,您可能希望将整个世界几何体分成固定大小的体素(由单个int表示),并使用简单的几何体来确定哪个位置落入哪个体素。
我个人的解决方案不会在这张桌子上添加太多的查询。索引将使它变得缓慢而大。使用cron作业填充报表(物化视图)以提前生成结果,只要cron作业到来并再次更新它们就可以使用它们。
答案 1 :(得分:1)
MySQL(和其他RDMS系统)充分利用覆盖索引。所以,如果您正在查找,请使用您的示例,
SELECT prism_data.id,
prism_data.action_id,
prism_data.world_id
FROM prism_data
INNER JOIN prism_worlds w ON w.world_id = prism_data.world_id
WHERE w.world = 'DeuxTiersMondes'
AND (prism_data.x BETWEEN 668 AND 868)
AND (prism_data.y BETWEEN -33 AND 167)
AND (prism_data.z BETWEEN 358 AND 558)
ORDER BY prism_data.id DESC
LIMIT 1000;
以下关于prism_data的BTREE索引可能会帮助一堆查询性能(几乎所有索引都是BTREE索引):
(world_id, x, y, z, id, action_id, world_id)
只需从索引中满足对prism_data的整个查询。它被称为覆盖索引,因为服务器可以找到它需要满足的所有内容 - 覆盖 - 索引中的查询,因此不必反弹到数据表本身。它将在world_id上执行索引标识扫描,然后在x上执行范围扫描,然后查看y和z值以匹配查询的其余部分。然后它将提取id值,对它们进行排序,并返回LIMIT 1000部分结果集。
您绝对应该停止使用SELECT *
。当您说SELECT *
时,您拒绝MySQL了解您实际需要哪些数据列,因此您无法选择覆盖原始表查询的索引查询的优化器逻辑。
如果您的数据在x和y上相当均匀分布,并且您可以使用MyISAM,则可能需要研究使用地理空间索引。与普通索引相比,它们可以更好地随机访问x / y范围。
精心设计索引会降低插入和更新的速度;这绝对是一种权衡。
答案 2 :(得分:0)
如果索引的前n列提供,MySQL可以使用复合索引。因此,如果您在列a,b,c,d上有复合索引,那么如果您提供列a,b,MySQL可以使用该索引。 OTOH,如果你只在查询中提供了B,C,D列,MySQL就无法使用索引。根据您在查询中可能使用的列的组合,在多个索引中包含列可能有意义也可能没有意义。不要忘记为每个列/索引插入/更新/删除行会产生额外的成本。
我不认为MySQL订购了索引,所以我怀疑索引不会对订购性能有所帮助,但我不确定。
根据您使用数据的方式,调查分区可能是有意义的,也许是按纪元。