我正在研究大型MySQL数据库,我需要提高特定表上的INSERT性能。这个包含大约200百万行,其结构如下:
(一个小前提:我不是数据库专家,所以我编写的代码可能基于错误的基础。请帮助我理解我的错误:))
CREATE TABLE IF NOT EXISTS items (
id INT NOT NULL AUTO_INCREMENT,
name VARCHAR(200) NOT NULL,
key VARCHAR(10) NOT NULL,
busy TINYINT(1) NOT NULL DEFAULT 1,
created_at DATETIME NOT NULL,
updated_at DATETIME NOT NULL,
PRIMARY KEY (id, name),
UNIQUE KEY name_key_unique_key (name, key),
INDEX name_index (name)
) ENGINE=MyISAM
PARTITION BY LINEAR KEY(name)
PARTITIONS 25;
每天我收到许多csv文件,其中每一行由“name; key”对组成,所以我必须解析这些文件(为每行添加值created_at和updated_at)并将值插入到我的表中。在这一个中,“name”和“key”的组合必须是独一无二的,所以我按如下方式实现了插入过程:
CREATE TEMPORARY TABLE temp_items (
id INT NOT NULL AUTO_INCREMENT,
name VARCHAR(200) NOT NULL,
key VARCHAR(10) NOT NULL,
busy TINYINT(1) NOT NULL DEFAULT 1,
created_at DATETIME NOT NULL,
updated_at DATETIME NOT NULL,
PRIMARY KEY (id)
)
ENGINE=MyISAM;
LOAD DATA LOCAL INFILE 'file_to_process.csv'
INTO TABLE temp_items
FIELDS TERMINATED BY ','
OPTIONALLY ENCLOSED BY '\"'
(name, key, created_at, updated_at);
INSERT INTO items (name, key, busy, created_at, updated_at)
(
SELECT temp_items.name, temp_items.key, temp_items.busy, temp_items.created_at, temp_items.updated_at
FROM temp_items
)
ON DUPLICATE KEY UPDATE busy=1, updated_at=NOW();
DROP TEMPORARY TABLE temp_items;
刚刚显示的代码允许我达到目标,但是,为了完成执行,它需要大约48小时,这是一个问题。 我认为这种糟糕的性能是由于脚本必须检查一个非常大的表(200百万行),并且对于每个插入,该对“name; key”是唯一的。
如何改善脚本的性能?
提前感谢所有人。
答案 0 :(得分:2)
名称上的线性键和大型索引会降低速度。
每次插入都需要计算LINEAR KEY。 http://dev.mysql.com/doc/refman/5.1/en/partitioning-linear-hash.html
你能告诉我们file_to_process.csv的一些示例数据,也许应该构建一个更好的模式。
编辑看得更近
INSERT INTO items (name, key, busy, created_at, updated_at)
(
SELECT temp_items.name, temp_items.key, temp_items.busy, temp_items.created_at, temp_items.updated_at
FROM temp_items
)
这将成为一个磁盘临时表,这是非常非常慢,所以你不应该使用它来获得更多的性能,或者你应该检查一些mysql配置设置,如tmp-table-size和max-heap-table-大小也许这些都是错误的配置。
答案 1 :(得分:2)
您可以使用以下方法加速插入:
如果要同时从同一客户端插入多行,请使用带有多个VALUES列表的INSERT语句一次插入多行。与使用单独的单行INSERT语句相比,这要快得多(在某些情况下要快很多倍)。如果要将数据添加到非空表,则可以调整bulk_insert_buffer_size变量以使数据插入更快。
从文本文件加载表时,请使用LOAD DATA INFILE。这通常比使用INSERT语句快20倍。
利用列具有默认值的事实。仅在要插入的值与默认值不同时才显式插入值。这减少了MySQL必须执行的解析并提高了插入速度。
答案 2 :(得分:0)
我想指出一些文档,Speed of INSERT Statements。
答案 3 :(得分:0)
通过java思维;
rewriteBatchedStatements=true
添加到您的 JDBC 字符串中,这将有助于减少应用程序和数据库之间的 TCP 级别通信。@Transactional
作为执行插入批处理和自己编写回滚方法的方法。答案 4 :(得分:-2)
您可以使用
load data local infile ''
REPLACE
into table
等...
REPLACE
确保使用新值覆盖任何重复值。
最后添加SET updated_at=now()
即可完成。
不需要临时表。