非常大的写入密集型MySQL导入

时间:2016-05-23 20:57:46

标签: python mysql database windows data-dump

我有(我会考虑)一大堆纯文本文件,大约400GB,正被导入MySQL数据库(InnoDB引擎)。 .txt文件的大小范围为2GB到26GB,每个文件代表数据库中的一个表。我得到了一个Python脚本,它解析.txt文件并构建SQL语句。我有一台专门用于此任务的机器,具有以下规格:

  • 操作系统 - Windows 10
  • 32GB RAM
  • 4TB硬盘
  • i7 3.40 GHz处理器

我希望优化此导入尽可能快速和脏。我已根据stack O questionsMySQL docsother sources更改了MySQL my.ini文件中的以下配置设置:

max_allowed_packet=1073741824;

autocommit=0;

net_buffer_length=0;

foreign_key_check=0;

unique_checks=0;

innodb_buffer_pool_size=8G; (this made a big difference in speed when I increased from the default of 128M)

我错过了配置文件中的其他设置(可能是日志记录或缓存)会导致MySQL使用机器资源的很大一部分吗?可能还有另一个我不知道的瓶颈吗?

(旁注:不确定这是否相关 - 当我开始导入时,mysqld进程旋转使用系统内存的大约13-15%,但是当我使用时似乎永远不会清除它停止Python脚本继续导入。我想知道这是否是由于记录和刷新设置的混乱。提前感谢任何帮助。)

修改

以下是填充表格的Python脚本的相关部分。看起来脚本连接,提交和关闭每50,000条记录的连接。我可以删除函数末尾的conn.commit()并让MySQL处理提交吗? while (true)下面的评论来自脚本的作者,我调整了这个数字,使其不超过max_allowed_pa​​cket大小。

    conn = self.connect()

    while (True):
        #By default, we concatenate 200 inserts into a single INSERT statement.
        #a large batch size per insert improves performance, until you start hitting max_packet_size issues.
        #If you increase MySQL server's max_packet_size, you may get increased performance by increasing maxNum
        records = self.parser.nextRecords(maxNum=50000)
        if (not records):
            break

        escapedRecords = self._escapeRecords(records) #This will sanitize the records
        stringList = ["(%s)" % (", ".join(aRecord)) for aRecord in escapedRecords]

        cur = conn.cursor()
        colVals = unicode(", ".join(stringList), 'utf-8')
        exStr = exStrTemplate % (commandString, ignoreString, tableName, colNamesStr, colVals)
        #unquote NULLs
        exStr = exStr.replace("'NULL'", "NULL")
        exStr = exStr.replace("'null'", "NULL")

        try:
            cur.execute(exStr)
        except MySQLdb.Warning, e:
            LOGGER.warning(str(e))
        except MySQLdb.IntegrityError, e:
        #This is likely a primary key constraint violation; should only be hit if skipKeyViolators is False
            LOGGER.error("Error %d: %s", e.args[0], e.args[1])
        self.lastRecordIngested = self.parser.latestRecordNum
        recCheck = self._checkProgress()
        if recCheck:
            LOGGER.info("...at record %i...", recCheck)
    conn.commit()
    conn.close()

0 个答案:

没有答案