ppyy腌制不能被cpython打破

时间:2016-06-15 06:32:47

标签: python cpython pypy

我有一段由pypy腌制的代码,但是,pypy添加了自己的操作码来扩展cpython操作码,cpython无法解决这个问题(引发SystemError:未知的操作码)。

它是由特殊操作码引起的:LOOKUP_METHOD& CALL_METHOD,请参阅the pypy doc

我想知道如何使pypy生成完全标准的cpython字节码而不是自定义的字节码。我查看了文档,找到了PYTHONOPTIMIZE环境变量,并将其设置为0,但它不起作用。

P.S。我不能改变unpickle方面,它必须是cpython 2.7。

更新1

正如评论所说,cpython无法挑选或解开代码对象,这是正确的。 我正在使用cloudpickle库来pickle和unpickle函数对象, 在cloudpickle库中,可以对代码对象进行pickle。

问题是pypy中的co_code属性不同, 它包含仅在pypy中定义的特殊操作码。

更新2

我采用@ecatmur提供的方法,除了BUILD_LIST_FROM_ARG之外,它的工作方式很完美。

这是我的代码:

class my_func(object):
    def __init__(self, resources):
        self.file_resource = resources[0]
        self.table_resource = resources[1]

        self.valid_ids = [int(l) for l in self.file_resource]
        self.valid_ids.extend([int(l[0]) for l in self.table_resource]) # issue line

在pypy一侧修改的cloudpickle之后,我在cpython一侧取消了:

c = pickle.loads('**the pypy pickled code**')
c([['0'], [['1']]])

但是错误引起了:

in __init__(self, resources)
    453 
    454                 self.valid_ids = [int(l) for l in self.file_resource]
--> 455                 self.valid_ids.extend([int(l[0]) for l in self.table_resource])
    456 
    457             def __call__(self, arg):

TypeError: 'int' object has no attribute '__getitem__'

我通过dis.dis检查了字节码,它是如此有线,看起来很正确。

如果我通过cpython腌制,那么unpickle方面就可以了。

有关更新2的任何想法吗?

1 个答案:

答案 0 :(得分:2)

没有任何选项可以禁用LOOKUP_METHOD优化;您可以尝试禁用astcompiler.PythonCodeGenerator._optimize_method_call(),但我认为修补字节码会更安全。幸运的是,这很容易,因为操作码采用相同的参数并出现在相应的位置:

from cloudpickle import CloudPickler, PY3
import opcode

HAVE_ARGUMENT = opcode.HAVE_ARGUMENT
NOP = opcode.opmap['NOP']
LOOKUP_METHOD = opcode.opmap['LOOKUP_METHOD']
CALL_METHOD = opcode.opmap['CALL_METHOD']
LOAD_ATTR = opcode.opmap['LOAD_ATTR']
CALL_FUNCTION = opcode.opmap['CALL_FUNCTION']
BUILD_LIST_FROM_ARG = opcode.opmap['BUILD_LIST_FROM_ARG']
BUILD_LIST = opcode.opmap['BUILD_LIST']
ROT_TWO = opcode.opmap['ROT_TWO']
JUMP_IF_NOT_DEBUG = opcode.opmap['JUMP_IF_NOT_DEBUG']
JUMP_FORWARD = opcode.opmap['JUMP_FORWARD']
JUMP_ABSOLUTE = opcode.opmap['JUMP_ABSOLUTE']

def pypy_to_cpython(code):
    code = [ord(c) for c in code]
    i = 0
    while i < len(code):
        if code[i] == LOOKUP_METHOD:
            code[i] = LOAD_ATTR
        elif code[i] == CALL_METHOD:
            code[i] = CALL_FUNCTION
        elif code[i] == BUILD_LIST_FROM_ARG:
            code[i:i + 3] = [JUMP_ABSOLUTE, len(code) % 256, len(code) // 256]
            code.extend([BUILD_LIST, 0, 0, ROT_TWO,
                JUMP_ABSOLUTE, (i + 3) % 256, (i + 3) // 256])
        elif code[i] == JUMP_IF_NOT_DEBUG:
            if __debug__:
                code[i:i + 3] = [NOP, NOP, NOP]
            else:
                code[i] = JUMP_FORWARD
        i += (3 if code[i] >= HAVE_ARGUMENT else 1)
    return ''.join(chr(c) for c in code)

注意:还有BUILD_LIST_FROM_ARGJUMP_IF_NOT_DEBUG。前者相当于BUILD_LIST(0)后跟ROT_TWO,而后者相当于调试模式下的无操作,而当调试中时相当于JUMP_FORWARD模式。这里棘手的一点是避免重新计算绝对跳转和行号的字节码位置;修复是将更长的字节码字符串附加到函数的末尾,然后跳转并跳回。

然后将子类(或猴子补丁)cloudpickle.CloudPickler调用您的操作码修补程序:

class MyPickler(CloudPickler):
    dispatch = CloudPickler.dispatch.copy()

    def save_codeobject(self, obj):
        """
        Save a code object
        """
        if PY3:
            args = (
                obj.co_argcount, obj.co_kwonlyargcount, obj.co_nlocals, obj.co_stacksize,
                obj.co_flags, pypy_to_cpython(obj.co_code), obj.co_consts, obj.co_names, obj.co_varnames,
                obj.co_filename, obj.co_name, obj.co_firstlineno, obj.co_lnotab, obj.co_freevars,
                obj.co_cellvars
            )
        else:
            args = (
                obj.co_argcount, obj.co_nlocals, obj.co_stacksize, obj.co_flags, pypy_to_cpython(obj.co_code),
                obj.co_consts, obj.co_names, obj.co_varnames, obj.co_filename, obj.co_name,
                obj.co_firstlineno, obj.co_lnotab, obj.co_freevars, obj.co_cellvars
            )
        self.save_reduce(types.CodeType, args, obj=obj)
    dispatch[types.CodeType] = save_codeobject