以下查询(无论环境如何)计算时间超过30秒。
SELECT COUNT( r.response_answer )
FROM response r
INNER JOIN (
SELECT G.question_id
FROM question G
INNER JOIN answer_group AG ON G.answer_group_id = AG.answer_group_id
WHERE AG.answer_group_stat = 'statistic'
) AS q ON r.question_id = q.question_id
INNER JOIN org_survey os ON os.org_survey_code = r.org_survey_code
WHERE os.survey_id =42
AND r.response_answer = 5
AND DATEDIFF( NOW( ) , r.added_dt ) <1000000
AND r.uuid IS NOT NULL
当我解释查询时,
id select_type table type possible_keys key key_len ref rows Extra
1 PRIMARY <derived2> ALL NULL NULL NULL NULL 1087
1 PRIMARY r ref question_id,org_survey_code,code_question,uuid,uor question_id 4 q.question_id 1545 Using where
1 PRIMARY os eq_ref org_survey_code,survey_id,org_survey_code_2 org_survey_code 12 survey_2.r.org_survey_code 1 Using where
2 DERIVED G ALL agid NULL NULL NULL 1680
2 DERIVED AG eq_ref PRIMARY PRIMARY 1 survey_2.G.answer_group_id 1 Using where
我对索引有一个非常基本的了解,但我已经尝试了几乎我能想到的所有组合,似乎无法提高此查询的速度。响应表大约是200万行,问题大约是1500行,answer_group大约是50,org_survey大约是8,000。
以下是每个的基本结构:
CREATE TABLE `response` (
`response_id` int(10) unsigned NOT NULL auto_increment,
`response_answer` text NOT NULL,
`question_id` int(10) unsigned NOT NULL default '0',
`org_survey_code` varchar(7) NOT NULL,
`uuid` varchar(40) default NULL,
`added_dt` datetime default NULL,
PRIMARY KEY (`response_id`),
KEY `question_id` (`question_id`),
KEY `org_survey_code` (`org_survey_code`),
KEY `code_question` (`org_survey_code`,`question_id`),
KEY `IDX_ADDED_DT` (`added_dt`),
KEY `uuid` (`uuid`),
KEY `response_answer` (`response_answer`(1)),
KEY `response_question` (`response_answer`(1),`question_id`),
) ENGINE=MyISAM AUTO_INCREMENT=2298109 DEFAULT CHARSET=latin1
CREATE TABLE `question` (
`question_id` int(10) unsigned NOT NULL auto_increment,
`question_text` varchar(250) NOT NULL default '',
`question_group` varchar(250) default NULL,
`question_position` tinyint(3) unsigned NOT NULL default '0',
`survey_id` tinyint(3) unsigned NOT NULL default '0',
`answer_group_id` mediumint(8) unsigned NOT NULL default '0',
`seq_id` int(11) NOT NULL default '0',
PRIMARY KEY (`question_id`),
KEY `question_group` (`question_group`(10)),
KEY `survey_id` (`survey_id`),
KEY `agid` (`answer_group_id`)
) ENGINE=MyISAM AUTO_INCREMENT=1860 DEFAULT CHARSET=latin1
CREATE TABLE `org_survey` (
`org_survey_id` int(11) NOT NULL auto_increment,
`org_survey_code` varchar(10) NOT NULL default '',
`org_id` int(11) NOT NULL default '0',
`org_manager_id` int(11) NOT NULL default '0',
`org_url_id` int(11) default '0',
`division_id` int(11) default '0',
`sector_id` int(11) default NULL,
`survey_id` int(11) NOT NULL default '0',
`process_batch` tinyint(4) default '0',
`added_dt` datetime default NULL,
PRIMARY KEY (`org_survey_id`),
UNIQUE KEY `org_survey_code` (`org_survey_code`),
KEY `org_id` (`org_id`),
KEY `survey_id` (`survey_id`),
KEY `org_survey_code_2` (`org_survey_code`,`total_taken`),
KEY `org_manager_id` (`org_manager_id`),
KEY `sector_id` (`sector_id`)
) ENGINE=MyISAM AUTO_INCREMENT=9268 DEFAULT CHARSET=latin1
CREATE TABLE `answer_group` (
`answer_group_id` tinyint(3) unsigned NOT NULL auto_increment,
`answer_group_name` varchar(50) NOT NULL default '',
`answer_group_type` varchar(20) NOT NULL default '',
`answer_group_stat` varchar(20) NOT NULL default 'demographic',
PRIMARY KEY (`answer_group_id`)
) ENGINE=MyISAM AUTO_INCREMENT=53 DEFAULT CHARSET=latin1
我知道我可以做些小事来提高数据库的效率,例如在不必要的地方减小整数的大小。然而,考虑到在这里产生结果所需的荒谬时间,这些都是相当微不足道的。根据解释给我的内容,我如何正确地索引这些表?似乎我尝试了各种各样的组合无济于事。此外,还有什么人可以看到,将优化表并减少查询?我需要它在不到一秒的时间内计算出来。提前谢谢!
答案 0 :(得分:5)
1.如果您希望使用r.added_dt
的索引,而不是:
DATEDIFF(NOW(), r.added_dt) < 1000000
使用:
CURDATE() - INTERVAL 1000000 DAY < r.added_dt
无论如何,上述条件是检查added_at
是否<百万天。你真的存储这么古老的约会吗?如果没有,你可以简单地删除这个条件。
如果您想要这个条件,added_at
上的索引会有很大帮助。您现在的查询,检查所有行是否符合此条件,调用DATEDIFF()
函数的次数与response
表的行数相同。
2.由于r.response_answer
不能是NULL
,而不是:
SELECT COUNT( r.response_answer )
使用:
SELECT COUNT( * )
COUNT(*)
比COUNT(field)
快。
3.用于连接表的三个字段中的两个具有不同的数据类型:
ON question . answer_group_id
= answer_group . answer_group_id
CREATE TABLE question (
...
answer_group_id mediumint(8) ..., <--- mediumint
CREATE TABLE answer_group (
answer_group_id` tinyint(3) ..., <--- tinyint
-------------------------------
ON org_survey . org_survey_code
= response . org_survey_code
CREATE TABLE response (
...
org_survey_code varchar(7) NOT NULL, <--- 7
CREATE TABLE org_survey (
...
org_survey_code varchar(10) NOT NULL default '', <--- 10
数据类型mediumint
与tinyint
不同,varchar(7)
和varchar(10)
也是如此。当它们用于连接时,MySQL必须浪费时间从一种类型转换到另一种类型。转换其中一个,使它们具有相同的数据类型。这不是查询的主要问题,但此更改还将帮助使用这些联接的所有其他查询。
进行此更改后,请为表格执行“分析表格”。它将帮助mysql制定更好的执行计划。
您有response_answer = 5
条件,其中response_answer
为text
。这不是错误,但最好使用response_answer = '5'
(无论如何,如果你不这样做的话,MySQL将完成5
到'5'
的转换。
真正的问题是您在WHERE
条件中使用的3个字段上没有复合索引。尝试添加这个:
ALTER TABLE response
ADD INDEX ind_u1_ra1_aa
(uuid(1), response_answer(1), added_at) ;
(这可能需要一段时间,因为你的桌子不小)
答案 1 :(得分:1)
您可以尝试以下查询吗?我已从原始查询中删除了子查询。这可以让优化器产生更好的执行计划。
SELECT COUNT(r.response_answer)
FROM response r
INNER JOIN question q ON r.question_id = q.question_id
INNER JOIN answer_group ag ON q.answer_group_id = ag.answer_group_id
INNER JOIN org_survey os ON os.org_survey_code = r.org_survey_code
WHERE
ag.answer_group_stat = 'statistic'
AND os.survey_id = 42
AND r.response_answer = 5
AND DATEDIFF(NOW(), r.added_dt) < 1000000
AND r.uuid IS NOT NULL