今天,我花了一天时间来改进我的Python脚本的性能,该脚本将数据推送到我的Postgres数据库中。我以前是这样插入记录的:
query = "INSERT INTO my_table (a,b,c ... ) VALUES (%s, %s, %s ...)";
for d in data:
cursor.execute(query, d)
然后我重新编写了我的脚本,以便创建一个内存文件,而不是用于Postgres' COPY
命令,它允许我将数据从文件复制到我的表:
f = StringIO(my_tsv_string)
cursor.copy_expert("COPY my_table FROM STDIN WITH CSV DELIMITER AS E'\t' ENCODING 'utf-8' QUOTE E'\b' NULL ''", f)
COPY
方法快得多。
METHOD | TIME (secs) | # RECORDS
=======================================
COPY_FROM | 92.998 | 48339
INSERT | 1011.931 | 48377
但我找不到任何有关原因的信息?它与多行INSERT
的工作方式有何不同,使其更快?
同样请参阅this benchmark:
# original
0.008857011795043945: query_builder_insert
0.0029380321502685547: copy_from_insert
# 10 records
0.00867605209350586: query_builder_insert
0.003248929977416992: copy_from_insert
# 10k records
0.041108131408691406: query_builder_insert
0.010066032409667969: copy_from_insert
# 1M records
3.464181900024414: query_builder_insert
0.47070908546447754: copy_from_insert
# 10M records
38.96936798095703: query_builder_insert
5.955034017562866: copy_from_insert
答案 0 :(得分:14)
这里有许多因素在起作用:
COMMIT
费用,如果每个插页执行一次提交的人(你不是)COPY
- 批量加载的具体优化如果服务器是远程的,您可能会"支付"每个声明的固定时间"价格"比方说,50毫秒(1/20秒)。或者对于某些云托管DB更多。由于下一个插入在最后一个插入成功完成之前无法开始,这意味着您的最大插入速率为1000 /每秒往返延迟(以毫秒为单位)的行数。延迟为50毫秒(" ping时间"),即20行/秒。即使在本地服务器上,此延迟也是非零的。 Wheras COPY
只填充TCP发送和接收窗口,并按照DB可以写入的速度流式传输行,网络可以传输它们。它不受延迟的影响很大,并且可能在同一网络链路上每秒插入数千行。
在PostgreSQL中解析,规划和执行语句也有成本。它必须采用锁,打开关系文件,查找索引等。COPY
尝试在开始时尝试所有这一次,然后只关注尽可能快地加载行。
由于操作系统必须在您的应用程序准备并发送它之前在等待连续的postgres之间切换,然后您的应用程序在postgres处理该行时等待postgres的响应,因此需要支付更多时间成本。每次从一个切换到另一个,都会浪费一点时间。当进程进入和离开等待状态时,可能会浪费更多时间来暂停和恢复各种低级内核状态。
除此之外,COPY
还有一些可用于某些负载的优化。如果没有生成的密钥,并且任何默认值都是常量,例如,它可以预先计算它们并完全绕过执行程序,将数据快速加载到较低级别的表中,从而跳过PostgreSQL的部分内容。完全正常工作。如果您CREATE TABLE
在同一事务中TRUNCATE
或COPY
,则可以通过绕过多客户端数据库中所需的正常事务簿保存来更快地加载负载
尽管如此,PostgreSQL的COPY
仍然可以做更多事情来加快速度,但它还不知道该怎么做。它可以自动跳过索引更新,然后重建索引,如果您正在更改超过表的某个比例。它可以批量进行索引更新。还有更多。
最后要考虑的是提交成本。它可能不是你的问题,因为psycopg2
默认打开一个事务而不是在你告诉它之前提交。除非你告诉它使用autocommit。但对于许多DB驱动程序,autocommit是默认设置。在这种情况下,您每个INSERT
都要进行一次提交。这意味着一次磁盘刷新,服务器确保将内存中的所有数据写入磁盘并告诉磁盘将自己的缓存写入持久存储。这可能需要长时间,并且会因硬件而异。我的基于SSD的NVMe BTRFS笔记本电脑只能达到200 fsyncs /秒,而300,000非同步写入/秒。所以它只能加载200行/秒!有些服务器只能执行50 fsyncs /秒。有些可以做到20,000。因此,如果您必须定期提交,请尝试批量加载和提交,执行多行插入等。因为COPY
最后只提交一个提交,所以提交成本可以忽略不计。但这也意味着COPY
无法在数据中途从错误中恢复;它解除了整个批量负荷。
答案 1 :(得分:4)
复制使用批量加载,这意味着它每次都插入多行,而简单插入,一次插入一行,但是您可以按照语法插入多行插入:
insert into table_name (column1, .., columnn) values (val1, ..valn), ..., (val1, ..valn)
有关使用批量加载的详细信息,请参阅例如The fastest way to load 1m rows in postgresql by Daniel Westermann
一次要插入多少行的问题,取决于行长度,一个好的经验法则是每插入一行插入100行。
答案 2 :(得分:2)
在事务中执行INSERT以加速。
在没有交易的情况下在bash中进行测试:
> time ( for((i=0;i<100000;i++)); do echo 'INSERT INTO testtable (value) VALUES ('$i');'; done ) | psql root | uniq -c
100000 INSERT 0 1
real 0m15.257s
user 0m2.344s
sys 0m2.102s
并使用交易:
> time ( echo 'BEGIN;' && for((i=0;i<100000;i++)); do echo 'INSERT INTO testtable (value) VALUES ('$i');'; done && echo 'COMMIT;' ) | psql root | uniq -c
1 BEGIN
100000 INSERT 0 1
1 COMMIT
real 0m7.933s
user 0m2.549s
sys 0m2.118s