Question

我有很多独立的任务，读取但不写入相同的gensim模型，大小约为3.6GB。（Gensim是一个基于numpy的主题建模库。）所以我决定通过首先从文件加载gensim模型来并行化它们：

from gensim.models.word2vec import Word2Vec
from multiprocessing import Pool
model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

然后将model作为参数传递给要运行doWork的进程池：

def doWork(experiment, doc):
  print "Begin working"
  # do some work here; access model by experiment.model

class Experiment(object):
   def __init__(self, model, docs):
     self.model = model
     self.docs = docs
   def run(self):
     pool = Pool(processes = 4)
     print "Done preparing"
     results = pool.map(doWork, [(self, doc) for doc in self.docs])
     return results

experiment = Experiment(model, ['doc1.txt', 'doc2.txt'])
experiment.run()

当我运行此脚本时（我在此处显示的两个段是可运行的脚本;请复制），它卡在pool.map行并且发生了SystemError。输出是：

Done preparing
Exception in thread Thread-2:
Traceback (most recent call last):
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/threading.py", line 810, in __bootstrap_inner
    self.run()
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/threading.py", line 763, in run
    self.__target(*self.__args, **self.__kwargs)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/multiprocessing/pool.py", line 342, in _handle_tasks
    put(task)
SystemError: NULL result without error in PyObject_Call

在将gensim引入我的程序之前，从未发生过该错误。（没有多处理的Gensim也适用于我。）我认为它可能与基础gensim和numpy（BLAS）的C代码的互操作有关。 我想知道这个错误的原因以及如何修复它。如果我不能将gensim用于子处理，还有什么替代方案？

我认为model不会被复制，因为我的操作系统（Mac OS X）应该使用写时复制策略。我不认为它与内存同步有关，因为没有打印一行“开始工作”，即我的代码没有访问model。错误在于将model传递给子流程。

在多处理中共享gensim（numpy）模型时出现SystemError

0 个答案: