Question

我对使用 psycopg2 与postgres db并行进行查询的一些多处理代码的行为感到非常困惑。

基本上，我正在对较大表的各个分区进行相同的查询（使用不同的参数）。我正在使用multiprocessing.Pool来分叉一个单独的查询。

我的多处理调用如下所示：

pool = Pool(processes=num_procs)
results=pool.map(run_sql, params_list)

我的run_sql代码如下所示：

def run_sql(zip2):
    conn = get_connection()
    curs = conn.cursor()
    print "conn: %s curs:%s pid=%s" % (id(conn), id(curs), os.getpid())
    ...
    curs.execute(qry)
    records = curs.fetchall()

def get_connection()
    ...
    conn = psycopg2.connect(user=db_user, host=db_host, 
                         dbname=db_name, password=db_pwd)

    return conn

所以我的期望是每个进程都会通过调用get_connection()得到一个单独的数据库连接，而print id(conn)会显示一个不同的值。然而，情况似乎并非如此，我无法解释它。即使print id(curs)也是一样的。只有print os.getpid()显示出差异。它是否以某种方式为每个分叉进程使用相同的连接？

conn: 4614554592 curs:4605160432 pid=46802
conn: 4614554592 curs:4605160432 pid=46808
conn: 4614554592 curs:4605160432 pid=46810
conn: 4614554592 curs:4605160432 pid=46784
conn: 4614554592 curs:4605160432 pid=46811

Answer 1

我想我已经弄明白了。答案在于Python中的多处理是共享的 - 所以整个内存空间都被复制，功能和所有内容。因此，对于每个进程，即使pid不同，存储空间也是彼此的副本，并且存储空间内的连接的地址最终是相同的。同样的原因是为什么我最初宣布一个全局连接池是没用的，每个进程最终都有自己的连接池，一次只有一个连接活动。

多处理模块和不同的psycopg2连接

1 个答案: