Question

我在MySQL中有一个大表（在MAMP中运行），它有2800万行，大小为3.1GB。这是它的结构

    CREATE TABLE `termusage` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `termid` bigint(20) DEFAULT NULL,
  `date` datetime DEFAULT NULL,
  `dest` varchar(255) DEFAULT NULL,
  `cost_type` tinyint(4) DEFAULT NULL,
  `cost` decimal(10,3) DEFAULT NULL,
  `gprsup` bigint(20) DEFAULT NULL,
  `gprsdown` bigint(20) DEFAULT NULL,
  `duration` time DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `termid_idx` (`termid`),
  KEY `date_idx` (`date`),
  KEY `cost_type_idx` (`cost_type`),
  CONSTRAINT `termusage_cost_type_cost_type_cost_code` FOREIGN KEY (`cost_type`) REFERENCES `cost_type` (`cost_code`),
  CONSTRAINT `termusage_termid_terminal_id` FOREIGN KEY (`termid`) REFERENCES `terminal` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=28680315 DEFAULT CHARSET=latin1

以下是SHOW TABLE STATUS的输出：

Name,Engine,Version,Row_format,Rows,Avg_row_length,Data_length,Max_data_length,Index_length,Data_free,Auto_increment,Create_time,Update_time,Check_time,Collation,Checksum,Create_options,Comment    
'termusage', 'InnoDB', '10', 'Compact', '29656469', '87', '2605711360', '0', '2156920832', '545259520', '28680315', '2011-08-16 15:16:08', NULL, NULL, 'latin1_swedish_ci', NULL, '', ''

我试图运行以下select语句：

    select u.id from termusage u
    where u.date between '2010-11-01' and '2010-12-01'

返回结果需要35分钟（大约1400万行） - 这是使用MySQL Worksbench。

我有以下MySQL配置设置：

Variable_name              Value
bulk_insert_buffer_size    8388608
innodb_buffer_pool_instances   1
innodb_buffer_pool_size    3221225472
innodb_change_buffering    all
innodb_log_buffer_size     8388608
join_buffer_size               131072
key_buffer_size            8388608
myisam_sort_buffer_size    8388608
net_buffer_length              16384
preload_buffer_size            32768
read_buffer_size               131072
read_rnd_buffer_size       262144
sort_buffer_size               2097152
sql_buffer_result              OFF

最终我试图运行一个更大的查询 - 连接几个表并组合一些数据，所有这些都基于变量 - 客户ID -

select c.id,u.termid,u.cost_type,count(*) as count,sum(u.cost) as cost,(sum(u.gprsup) + sum(u.gprsdown)) as gprsuse,sum(time_to_sec(u.duration)) as duration 
from customer c
inner join terminal t
on (c.id = t.customer)
inner join termusage u
on (t.id = u.termid)
where c.id = 1 and u.date between '2011-03-01' and '2011-04-01' group by c.id,u.termid,u.cost_type

这最多返回8行（因为只有8个单独的cost_types - 但是这个查询在termusage表中要计算的行数不多（少于1百万）时运行正常 - 但是当数量为termusage表中的行很大 - 如何缩短选择时间。

使用LOAD DATA方法每月从CSV文件中将数据添加到termusage表中一次 - 因此不需要对插入进行非常精确的调整。

编辑：显示主要查询的解释：

id,select_type,table,type,possible_keys,key,key_len,ref,rows,Extra
1,SIMPLE,c,const,PRIMARY,PRIMARY,8,const,1,"Using index; Using temporary; Using filesort"
1,SIMPLE,u,ALL,"termid_idx,date_idx",NULL,NULL,NULL,29656469,"Using where"
1,SIMPLE,t,eq_ref,"PRIMARY,customer_idx",PRIMARY,8,wlnew.u.termid,1,"Using where"

Answer 1

看起来你问了两个问题 - 对吗？

第一个查询花费这么长时间的最可能原因是因为它受IO限制。将140万条记录从磁盘传输到MySQL工作台需要很长时间。

您是否尝试通过“解释”提出第二个查询？是的，你只能获得8行 - 但SUM操作可能是数百万条记录的总和。

我假设“客户”和“终端”表格已正确编入索引？当你加入关于termusage的主键时，那应该非常快......

Answer 2

您可以尝试删除按日期限制的where子句，而是在select中放置一个IF语句，这样如果日期在这些边界内，则返回该值，否则返回零值。然后，SUM当然只对这个范围内的值求和，因为所有其他值都为零。

获取比您需要的更多行听起来有点荒谬但我们最近在Oracle数据库上观察到这取得了相当大的改进。当然，这将取决于许多其他因素，但它可能值得一试。

Answer 3

您也可以考虑将表分解为数年或数月。所以你有一个termusage_2010，termusage_2011，......或类似的东西。

不是一个非常好的解决方案，但是看到你的桌子非常大，它可能在较小的服务器上很有用。

大型MySQL表，选择速度很慢

3 个答案: