我已经尝试了多种方法来挑选具有依赖关系的python函数,遵循StackOverflow上的许多建议(例如dill,cloudpickle等),但似乎都遇到了一个我无法弄清楚的基本问题。
我有一个主模块,它试图从导入的模块中挑选一个函数,通过ssh发送它以进行unpickled并在远程机器上执行。
所以主要有:
import dill (for example)
import modulea
serial=dill.dumps( modulea.func )
send (serial)
在远程计算机上:
import dill
receive serial
funcremote = dill.loads( serial )
funcremote()
如果被腌制和发送的函数是main本身定义的顶级函数,那么一切正常。当它们在导入的模块中时,加载功能失败,并且未找到类型"模块模块的消息"。
模块名称似乎与功能名称一起被腌制。我没有看到任何解决问题的方法。 pickle删除依赖关系,或者在接收器中创建一个虚拟模块,成为unpickling的接收者。
任何指针都会非常感激。
- 人员Prasanna
答案 0 :(得分:12)
我是dill
作者。我在ssh
上做了这件事,但成功了。目前,dill
和任何其他序列化程序通过引用来腌制模块...因此,要成功传递文件中定义的函数,您必须确保相关模块也安装在另一台机器上。我不相信有任何对象序列化器直接序列化模块(即不通过引用)。
话虽如此,dill
确实有一些序列化对象依赖关系的选项。例如,对于类实例,dill
中的默认值是不通过引用序列化类实例...因此类定义也可以序列化并与实例一起发送。在dill
中,您还可以(使用一个非常新的功能)通过序列化文件来序列化文件句柄,而不是通过引用这样做。但是,如果你有一个模块中定义的函数的情况,那么你就是运气不好,因为模块通过引用顺序排列,非常普遍。
您可能可以使用dill
来执行此操作,但是,不是使用pickle对象,而是提取源并发送源代码。在pathos.pp
和pyina
中,dill
我们曾用于提取任何对象(包括函数)的源和依赖关系,以及将它们传递给另一台计算机/进程/等。但是,由于这不是一件容易的事情,dill
也可以使用尝试提取相关导入的故障转移并发送而不是源代码。
你可以理解,希望这是一个混乱的混乱事情(正如我在下面提取的函数的一个依赖关系中所指出的)。但是,您在pathos
包中成功完成了要求,以便将代码和依赖项传递到跨ssh-tunneled端口的不同计算机。
>>> import dill
>>>
>>> print dill.source.importable(dill.source.importable)
from dill.source import importable
>>> print dill.source.importable(dill.source.importable, source=True)
def _closuredsource(func, alias=''):
"""get source code for closured objects; return a dict of 'name'
and 'code blocks'"""
#FIXME: this entire function is a messy messy HACK
# - pollutes global namespace
# - fails if name of freevars are reused
# - can unnecessarily duplicate function code
from dill.detect import freevars
free_vars = freevars(func)
func_vars = {}
# split into 'funcs' and 'non-funcs'
for name,obj in list(free_vars.items()):
if not isfunction(obj):
# get source for 'non-funcs'
free_vars[name] = getsource(obj, force=True, alias=name)
continue
# get source for 'funcs'
#…snip… …snip… …snip… …snip… …snip…
# get source code of objects referred to by obj in global scope
from dill.detect import globalvars
obj = globalvars(obj) #XXX: don't worry about alias?
obj = list(getsource(_obj,name,force=True) for (name,_obj) in obj.items())
obj = '\n'.join(obj) if obj else ''
# combine all referred-to source (global then enclosing)
if not obj: return src
if not src: return obj
return obj + src
except:
if tried_import: raise
tried_source = True
source = not source
# should never get here
return
我想也可以围绕dill.detect.parents
方法构建一些东西,该方法提供了指向任何给定对象的所有父对象的指针列表......并且可以将所有函数的所有依赖关系重建为对象......但这没有实现。
BTW:要建立一个ssh隧道,就这样做:
>>> t = pathos.Tunnel.Tunnel()
>>> t.connect('login.university.edu')
39322
>>> t
Tunnel('-q -N -L39322:login.university.edu:45075 login.university.edu')
然后,您可以使用ZMQ
或ssh
或其他任何方式在本地端口上工作。如果您想使用ssh
执行此操作,pathos
也内置了该内容。