我正在阅读一篇关于使用队列的Python多线程的文章,并有一个基本问题。
根据print stmt,按预期启动5个线程。那么,队列如何运作?
1.最初启动线程,当队列填充了一个项目时,它是否会重新启动并开始处理该项目? 2.如果我们使用队列系统和线程处理队列中的每个项目,那么性能如何提高。它与串行处理不相似,即; 1比1。
import Queue
import threading
import urllib2
import datetime
import time
hosts = ["http://yahoo.com", "http://google.com", "http://amazon.com",
"http://ibm.com", "http://apple.com"]
queue = Queue.Queue()
class ThreadUrl(threading.Thread):
def __init__(self, queue):
threading.Thread.__init__(self)
print 'threads are created'
self.queue = queue
def run(self):
while True:
#grabs host from queue
print 'thread startting to run'
now = datetime.datetime.now()
host = self.queue.get()
#grabs urls of hosts and prints first 1024 bytes of page
url = urllib2.urlopen(host)
print 'host=%s ,threadname=%s' % (host,self.getName())
print url.read(20)
#signals to queue job is done
self.queue.task_done()
start = time.time()
if __name__ == '__main__':
#spawn a pool of threads, and pass them queue instance
print 'program start'
for i in range(5):
t = ThreadUrl(queue)
t.setDaemon(True)
t.start()
#populate queue with data
for host in hosts:
queue.put(host)
#wait on the queue until everything has been processed
queue.join()
print "Elapsed Time: %s" % (time.time() - start)
答案 0 :(得分:1)
队列类似于列表容器,但具有内部锁定,使其成为一种线程安全的数据通信方式。
当您启动所有线程时会发生的事情是它们都在self.queue.get()
调用时阻塞,等待从队列中提取项目。当一个项目从主线程放入队列时,其中一个线程将被解除阻塞并接收该项目。然后它可以继续处理它,直到它完成并返回阻塞状态。
所有线程都可以并发运行,因为它们都能够从队列中接收项目。在这里您可以看到您的性能提升。如果urlopen
和read
在一个线程中花费时间并且它正在等待IO,那意味着另一个线程可以正常工作。队列对象作业只是管理锁定访问,并将项目弹出给调用者。