在我的多处理代码中,有几个工作程序用于并行处理。
工作者应该只通过request_queue和带锁的共享值进行通信。
但现在似乎因为在开始时“分叉”,例如worker#4和#5共享相同的字典文档。我发现使用id(文档)来查看内存地址。
由于将文档存储在mongodb中,其驱动程序正在将_id写回文档,因此会出现奇怪的错误。
必须确保每个工作人员完全孤立,期望队列和共享价值,我现在不知道如何。
工人们从:
开始for i in range(workers):
Worker( request_queue,i,val, lock ).start()
class Worker(Process):
def __init__(self, queue,ident,val,lock):
super(Worker, self).__init__()
self.queue= queue
self.idstr= str(ident)
self.val = val
self.lock = lock
dbconn = dbconnector.DBConnector()
self.mongoconnection = dbconn.getMongoConnection()
self.flagController = FlagController()
print "Ident" + self.idstr
def run(self):
print 'Worker started'
# do some initialization here
print 'Worker Loop!'
#time.sleep(5)
try:
for data in iter( self.queue.get, None ):
mid = data["_id"]
print "#" + self.idstr + " : Mongoid " + str(mid)
#time.sleep(5)
try:
timestamp = time.time()
document = {"rawdata": data,
"c": {
"quelle": "t",
"timestamp": mid.generation_time,
"query" : data["query"]
}
}
self.mongoconnection.insert("productive","input",document)
更新 我知道尝试通过构造函数传递一个新文档,并通过self.document在Worker中使用它,但遗憾的是没有帮助。
答案 0 :(得分:0)
确保每个工作线程被隔离的一种方法是为每个工作线程提供其自己的文档实例变量。即使用self.document引用文档。