Question

下面是我使用多处理模块池的并行代码。这里，参数d是元组，其word_number是整数，word_count是文档。

def perDoc(d):
    score = 0.0
    word_count = d.word_count
    word_number = d.word_number
    for i, word in enumerate(q):
        if word not in corpus_query_min:
            continue
        if word not in word_count:
            frequency = 0
        else:
            frequency = word_count.get(word)
        score += np.log(np.float(frequency + miu * corpus_word_count[i]/corpus_number)/
                    (word_number + miu))
    #loglh[d.docID] = score
if __name__ == '__main__':
    pool = Pool(4)
    pool.map(perDoc, doc_query_list)
    pool.close()

我得到了这样的错误：

cPickle.PicklingError: Can't pickle <class '__main__.doc_'>: attribute lookup __main__.doc_ failed

这是我的参数d的问题是带文档的元组吗？

Answer 1

心理调试，因为你提供了更多信息（但仍然不是MCVE）：

您创建了doc_tuple的课程：

doc_tuple = collections.namedtuple('doc_', ... attributes here ...)

传递的字符串名称（'doc_'）与分配给（doc_tuple）的名称之间的不匹配会导致此问题;两个名称必须匹配namedtuple的实例才能成为pickleable。将其更改为：

# Binding matches name passed to namedtuple constructor now
doc_tuple = collections.namedtuple('doc_tuple', ... attributes here ...)

并确保它在模块的顶层定义（不在另一个类或函数内），它应该可以工作。

Answer 2

如果脚本中有import ipdb，请将其删除。

python多处理cPickle.PicklingError

2 个答案: