Python,如何实现并行进程

时间:2016-03-16 06:39:51

标签: python mysql multithreading pandas parallel-processing

在Python中,如果数据库非常大,简单的选择查询将花费大量时间。我有一个包含4,700,000条记录的表,如果我使用SELECT * FROM MY_TABLE获取表中的所有数据,则需要18分钟。通过设置chunk_size并实现并行查询,可以节省时间。

所以,我的代码是:

import os
import time
import multiprocessing
import pandas as pd
import MySQLdb as mysql

if __name__ == '__main__':
    conn = mysql.connect(host='192.168.0.114',
                         user='root',
                         passwd='fit123456',
                         db='A_stock_day',
                         charset='utf8'
                        )
    limit = 100000
    offset = 0
    dfs = []
    print 'start.....'
    _s = time.time()
    while True:
        _query = 'SELECT * FROM A_stock_basic LIMIT %d OFFSET %d' %\
                (limit, offset)
        dfs.append(pd.read_sql(_query, conn))
        offset += limit
        if len(dfs[-1]) < limit:
            break
    _e = time.time()
    print 'Time: ', _e - _s
    full_df = pd.concat(dfs)

但是,它仍然需要大约10分钟。如何并行化它,让许多线程同时运行并使执行时间缩短到一个线程的执行时间?我在这里有多处理代码:

def select(info):
    """"""
    limit, offset, conn = info[0], info[1], info[2]
    _query = 'SELECT * FROM A_stock_basic LIMIT %d OFFSET %d' %\
            (limit, offset)
    s = time.time()
    info[3].append(pd.read_sql(_query, conn))
    e = time.time()
    print 'time: ', e - s, ' pid: ', os.getpid()

if __name__ == '__main__':
    conn = mysql.connect(host='192.168.0.114',
                         user='root',
                         passwd='fit123456',
                         db='A_stock_day',
                         charset='utf8'
                        )
    dfs, p, pool= [], [], multiprocessing.Pool(7)
    info = [(1000000, 0, conn, dfs),
            (1000000, 1000000, conn, dfs),
            (1000000, 2000000, conn, dfs),
            (1000000, 3000000, conn, dfs),
            (1000000, 4000000, conn, dfs),
            (1000000, 5000000, conn, dfs),
            (1000000, 6000000, conn, dfs),
           ]
    for _i, _v in enumerate(info):
        print 'start....', _i
        _p = multiprocessing.Process(target=select, args=(_v, ))
        _p.start()
        _p.join()
    print 'The End'

正如您所看到的,虽然它启动了多处理,但只有一个进程一次读取数据库。所以,这只是多处理,而不是并行处理。

如何实现并行多处理以节省时间?感谢。

1 个答案:

答案 0 :(得分:2)

在你的循环中

for _i, _v in enumerate(info):
    print 'start....', _i
    _p = multiprocessing.Process(target=select, args=(_v, ))
    _p.start()
    _p.join()

您正在启动流程,然后立即加入流程。这意味着您的主进程永远不会启动多个额外的子进程(因为一旦启动一个子进程,它将等待那个进程继续完成)。

解决此问题的最直接方法是:

processes = []
for _i, _v in enumerate(info):
    print 'start....', _i
    _p = multiprocessing.Process(target=select, args=(_v, ))
    _p.start()
    processes.append(_p)
for _p in processes:
    _p.join()

但是,更好的方法是使用您已创建的pool对象。为此,代码应该类似于

pool.apply(select, info)

但是,我认为让select返回所获得的数据(而不是将其附加到数组)并调用pool.map而不是pool.apply会更快乐。这应该有助于避免一些竞争条件和共同的记忆问题,我认为你会遇到这些问题。

您可以在https://docs.python.org/2/library/multiprocessing.html了解有关这些功能的更多信息,但我希望您已经去过那里。