Python队列 - 最多运行n个线程

时间:2012-12-13 21:38:41

标签: python multithreading queue

情景:

我有一个非常大的数据库模型迁移正在进行新的构建,我正在研究如何将Web应用程序中的当前实时数据迁移到本地测试数据库。

我想在python中设置一个脚本,该脚本将同时处理我的模型的迁移。我的模型实例有from_legacyto_legacy方法。到目前为止,我加载了所有实例并为每个实例创建threads,每个线程从核心threading模块子类化,使用run方法进行转换并保存结果。

我想让程序中的主循环构建这些线程的大堆实例,然后开始逐个处理它们,在它工作时只运行最多10个,然后进行下一个在其他人完成迁移时进行处理。

我无法弄清楚如何正确利用队列来做到这一点?如果每个线程代表完整的迁移任务,我应该先加载所有实例,然后创建一个Queuemaxsize设置为10,并且只跟踪当前正在运行的队列吗?也许这样的事情?

currently_running = Queue()
for model in models:
  task = Migrate(models) #this is subclassed thread
  currently_running.put(task)
  task.start()

在这种情况下依赖于put调用阻止它的容量?如果我要走这条路,我该如何致电task_done

或者更确切地说,如果Queue包含所有任务(不仅仅是已启动的任务)并使用join来阻止完成?在线程队列上调用join是否会启动包含的线程?

解决“最多有N个运行线程”问题的最佳方法是什么?队列应扮演什么角色?

2 个答案:

答案 0 :(得分:5)

Although not documentedmultiprocessing模块有一个ThreadPool类,顾名思义,它创建一个线程池。它共享same API as the multiprocessing.Pool class

然后,您可以使用pool.apply_async

将任务发送到线程池
import multiprocessing.pool as mpool

def worker(task):
    # work on task
    print(task)     # substitute your migration code here.

# create a pool of 10 threads
pool = mpool.ThreadPool(10)
N = 100

for task in range(N):
    pool.apply_async(worker, args = (task, ))

pool.close()
pool.join()

答案 1 :(得分:0)

这应该可以使用信号量来完成documentation中的示例是您尝试完成的一些提示。