Question

我正在研究大型MySQL数据库，我需要提高特定表上的INSERT性能。这个包含大约200百万行，其结构如下：

（一个小前提：我不是数据库专家，所以我编写的代码可能基于错误的基础。请帮助我理解我的错误:)）

CREATE TABLE IF NOT EXISTS items (
    id INT NOT NULL AUTO_INCREMENT,
    name VARCHAR(200) NOT NULL,
    key VARCHAR(10) NOT NULL,
    busy TINYINT(1) NOT NULL DEFAULT 1,
    created_at DATETIME NOT NULL,
    updated_at DATETIME NOT NULL,

    PRIMARY KEY (id, name),
    UNIQUE KEY name_key_unique_key (name, key),
    INDEX name_index (name)
) ENGINE=MyISAM
PARTITION BY LINEAR KEY(name)
PARTITIONS 25;

每天我收到许多csv文件，其中每一行由“name; key”对组成，所以我必须解析这些文件（为每行添加值created_at和updated_at）并将值插入到我的表中。在这一个中，“name”和“key”的组合必须是独一无二的，所以我按如下方式实现了插入过程：

CREATE TEMPORARY TABLE temp_items (
    id INT NOT NULL AUTO_INCREMENT,
    name VARCHAR(200) NOT NULL, 
    key VARCHAR(10) NOT NULL, 
    busy TINYINT(1) NOT NULL DEFAULT 1,  
    created_at DATETIME NOT NULL, 
    updated_at DATETIME NOT NULL,  
    PRIMARY KEY (id) 
    ) 
ENGINE=MyISAM;

LOAD DATA LOCAL INFILE 'file_to_process.csv' 
INTO TABLE temp_items
FIELDS TERMINATED BY ',' 
OPTIONALLY ENCLOSED BY '\"' 
(name, key, created_at, updated_at); 

INSERT INTO items (name, key, busy, created_at, updated_at) 
(
    SELECT temp_items.name, temp_items.key, temp_items.busy, temp_items.created_at, temp_items.updated_at 
    FROM temp_items
) 
ON DUPLICATE KEY UPDATE busy=1, updated_at=NOW();

DROP TEMPORARY TABLE temp_items;

刚刚显示的代码允许我达到目标，但是，为了完成执行，它需要大约48小时，这是一个问题。我认为这种糟糕的性能是由于脚本必须检查一个非常大的表（200百万行），并且对于每个插入，该对“name; key”是唯一的。

如何改善脚本的性能？

提前感谢所有人。

Answer 1

名称上的线性键和大型索引会降低速度。

每次插入都需要计算LINEAR KEY。 http://dev.mysql.com/doc/refman/5.1/en/partitioning-linear-hash.html

你能告诉我们file_to_process.csv的一些示例数据，也许应该构建一个更好的模式。

编辑看得更近

INSERT INTO items (name, key, busy, created_at, updated_at) 
(
    SELECT temp_items.name, temp_items.key, temp_items.busy, temp_items.created_at, temp_items.updated_at 
    FROM temp_items
)

这将成为一个磁盘临时表，这是非常非常慢，所以你不应该使用它来获得更多的性能，或者你应该检查一些mysql配置设置，如tmp-table-size和max-heap-table-大小也许这些都是错误的配置。

Answer 2

您可以使用以下方法加速插入：

如果要同时从同一客户端插入多行，请使用带有多个VALUES列表的INSERT语句一次插入多行。与使用单独的单行INSERT语句相比，这要快得多（在某些情况下要快很多倍）。如果要将数据添加到非空表，则可以调整bulk_insert_buffer_size变量以使数据插入更快。
从文本文件加载表时，请使用LOAD DATA INFILE。这通常比使用INSERT语句快20倍。
利用列具有默认值的事实。仅在要插入的值与默认值不同时才显式插入值。这减少了MySQL必须执行的解析并提高了插入速度。

Answer 3

我想指出一些文档，Speed of INSERT Statements。

Answer 4

通过java思维；

将对象列表分成多个分区，并为每个分区生成批量插入语句。
有效地利用 CPU 内核和可用的数据库连接，不错的新 Java 功能可以帮助轻松实现并行性（例如并行、forkjoin），或者您可以创建自定义线程池，使用您拥有的 CPU 内核数量进行优化，并从集中式线程中获取线程阻塞队列以调用批量插入准备好的语句。
如果可能，减少目标表上的索引数量。如果真的不需要外键，直接删除它。索引越少插入速度越快。
除了 CRUD 操作之外，避免使用 Hibernate，始终为复杂的选择编写 SQL。
减少查询中的连接数量，而不是强制数据库，使用 Java 流进行过滤、聚合和转换。
如果你觉得没有必要，不要把select和inserts合并成一条sql语句
将 rewriteBatchedStatements=true 添加到您的 JDBC 字符串中，这将有助于减少应用程序和数据库之间的 TCP 级别通信。
使用 @Transactional 作为执行插入批处理和自己编写回滚方法的方法。

Answer 5

您可以使用

load data local infile ''
REPLACE
into table

等...

REPLACE确保使用新值覆盖任何重复值。最后添加SET updated_at=now()即可完成。

不需要临时表。

如何在非常大的MySQL表上提高INSERT性能

5 个答案: