我对使用 psycopg2 与postgres db并行进行查询的一些多处理代码的行为感到非常困惑。
基本上,我正在对较大表的各个分区进行相同的查询(使用不同的参数)。我正在使用multiprocessing.Pool来分叉一个单独的查询。
我的多处理调用如下所示:
pool = Pool(processes=num_procs)
results=pool.map(run_sql, params_list)
我的run_sql代码如下所示:
def run_sql(zip2):
conn = get_connection()
curs = conn.cursor()
print "conn: %s curs:%s pid=%s" % (id(conn), id(curs), os.getpid())
...
curs.execute(qry)
records = curs.fetchall()
def get_connection()
...
conn = psycopg2.connect(user=db_user, host=db_host,
dbname=db_name, password=db_pwd)
return conn
所以我的期望是每个进程都会通过调用get_connection()
得到一个单独的数据库连接,而print id(conn)
会显示一个不同的值。然而,情况似乎并非如此,我无法解释它。即使print id(curs)
也是一样的。只有print os.getpid()
显示出差异。它是否以某种方式为每个分叉进程使用相同的连接?
conn: 4614554592 curs:4605160432 pid=46802
conn: 4614554592 curs:4605160432 pid=46808
conn: 4614554592 curs:4605160432 pid=46810
conn: 4614554592 curs:4605160432 pid=46784
conn: 4614554592 curs:4605160432 pid=46811
答案 0 :(得分:3)
我想我已经弄明白了。答案在于Python中的多处理是共享的 - 所以整个内存空间都被复制,功能和所有内容。因此,对于每个进程,即使pid不同,存储空间也是彼此的副本,并且存储空间内的连接的地址最终是相同的。同样的原因是为什么我最初宣布一个全局连接池是没用的,每个进程最终都有自己的连接池,一次只有一个连接活动。