多处理apply_async()不适用于Ubuntu

时间:2016-04-24 11:06:34

标签: python ubuntu asynchronous multiprocessing cherrypy

我在Mac OS X和Ubuntu 14.04上都将此代码作为CherryPy Web服务运行。通过在python3上使用multiprocessing,我希望以worker()内的异步方式启动静态方法Process Pool

相同的代码在Mac OS X上运行完美,在Ubuntu 14.04中worker()无法运行。即通过调试POST方法中的代码,我能够看到每一行都被执行 - 来自

reqid = str(uuid.uuid4())

return handle_error(202, "Request ID: " + reqid)

在Ubuntu 14.04中启动相同的代码,它不会运行worker()方法,甚至不会运行方法顶部的print()(将被记录)。

这是相关代码(我只省略了handle_error()方法):

import cherrypy
import json
from lib import get_parameters, handle_error
from multiprocessing import Pool
import os
from pymatbridge import Matlab
import requests
import shutil
import uuid
from xml.etree import ElementTree

class Schedule(object):
    exposed = True

    def __init__(self, mlab_path, pool):
        self.mlab_path = mlab_path
        self.pool = pool

    def POST(self, *paths, **params):

        if validate(cherrypy.request.headers):

            try:
                reqid = str(uuid.uuid4())
                path = os.path.join("results", reqid)
                os.makedirs(path)
                wargs = [(self.mlab_path, reqid)]
                self.pool.apply_async(Schedule.worker, wargs)

                return handle_error(202, "Request ID: " + reqid)
            except:
                return handle_error(500, "Internal Server Error")
        else:
            return handle_error(401, "Unauthorized")

    #### this is not executed ####
    @staticmethod
    def worker(args):

        mlab_path, reqid = args
        mlab = Matlab(executable=mlab_path)
        mlab.start()

        mlab.run_code("cd mlab")
        mlab.run_code("sched")
        a = mlab.get_variable("a")

        mlab.stop()

        return reqid

    ####

# to start the Web Service
if __name__ == "__main__":

    # start Web Service with some configuration
    global_conf = {
           "global":    {
                            "server.environment": "production",
                            "engine.autoreload.on": True,
                            "engine.autoreload.frequency": 5,
                            "server.socket_host": "0.0.0.0",
                            "log.screen": False,
                            "log.access_file": "site.log",
                            "log.error_file": "site.log",
                            "server.socket_port": 8084
                        }
    }
    cherrypy.config.update(global_conf)
    conf = {
        "/": {
            "request.dispatch": cherrypy.dispatch.MethodDispatcher(),
            "tools.encode.debug": True,
            "request.show_tracebacks": False
        }
    }

    pool = Pool(3)

    cherrypy.tree.mount(Schedule('matlab', pool), "/sched", conf)

    # activate signal handler
    if hasattr(cherrypy.engine, "signal_handler"):
        cherrypy.engine.signal_handler.subscribe()

    # start serving pages
    cherrypy.engine.start()
    cherrypy.engine.block()

3 个答案:

答案 0 :(得分:8)

您的逻辑隐藏了您的问题。 apply_async方法返回一个AsyncResult对象,该对象充当您刚刚安排的异步任务的处理程序。当您忽略计划任务的结果时,整个事情看起来像是“无声地失败”。

如果您尝试从该任务获得结果,您会看到真正的问题。

handler = self.pool.apply_async(Schedule.worker, wargs)
handler.get()

... traceback here ...
cPickle.PicklingError: Can't pickle <type 'function'>: attribute lookup __builtin__.function failed

简而言之,您必须确保传递给池的参数为Picklable

如果它们所属的对象/类也是可选的,则实例和类方法是Picklable。静态方法不可选,因为它们会松散与对象本身的关联,因此pickle库无法正确地序列化它们。

作为一般线,最好避免安排multiprocessing.Pool与顶级定义函数不同的任何内容。

答案 1 :(得分:2)

要使用Cherrypy运行后台任务,如果使用CeleryRQ之类的异步任务队列管理器,则会更好。这些服务非常易于安装和运行,您的任务将在完全独立的过程中运行,如果您需要扩展,因为您的负载正在增加,那么它将非常直接。

您有一个使用Cherrypy here的简单示例。

答案 2 :(得分:0)

我解决了将方法从@staticmethod更改为@classmethod的问题。现在,作业在ProcessPool内运行。我发现类方法在这种情况下更有用,正如here所述。

感谢。