如何在CPython代码对象中存储名称和函数体?

时间:2017-05-27 02:17:19

标签: python c compiler-construction bytecode cpython

我有一个python脚本。

def hello(self):
    return 6
print hello()

在CPython中编译后反汇编我得

>>> c = compile(open('hello.py').read(), 'hello.py', 'exec')
>>> import dis
>>> dis.dis(c)
  1           0 LOAD_CONST               0 (<code object hello at 0x1006c9230, file "hello.py", line 1>)
              3 MAKE_FUNCTION            0
              6 STORE_NAME               0 (hello)

  3           9 LOAD_NAME                0 (hello)
             12 CALL_FUNCTION            0
             15 PRINT_ITEM
             16 PRINT_NEWLINE
             17 LOAD_CONST               1 (None)
             20 RETURN_VALUE

我很好奇<code object hello at 0x1006c9230 ...>如何存储在CPython代码对象中。有co_code函数但只打印出字节码指令。如果我序列化CPython代码对象,我得

>>> import marshal
>>> marshal.dumps(c)
'c\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00@\x00\x00\x00s\x15\x00\x00\x00d\x00\x00\x84\x00\x00Z\x00\x00e\x00\x00\x83\x00\x00GHd\x01\x00S(\x02\x00\x00\x00c\x01\x00\x00\x00\x02\x00\x00\x00\x01\x00\x00\x00C\x00\x00\x00s\n\x00\x00\x00d\x01\x00}\x01\x00|\x01\x00S(\x02\x00\x00\x00Ni\x06\x00\x00\x00(\x00\x00\x00\x00(\x02\x00\x00\x00t\x04\x00\x00\x00selft\x01\x00\x00\x00x(\x00\x00\x00\x00(\x00\x00\x00\x00s\x08\x00\x00\x00hello.pyt\x05\x00\x00\x00hello\x01\x00\x00\x00s\x04\x00\x00\x00\x00\x01\x06\x01N(\x01\x00\x00\x00R\x02\x00\x00\x00(\x00\x00\x00\x00(\x00\x00\x00\x00(\x00\x00\x00\x00s\x08\x00\x00\x00hello.pyt\x08\x00\x00\x00<module>\x01\x00\x00\x00s\x02\x00\x00\x00\t\x03'

我知道

def hello(self):
    return 6

存储在转储中的某处,因为如果我将其更改为return 5,则转储中的一个字节会从6切换到5.

1)有没有办法可以从CPython代码对象访问函数体。最接近我可以得到它c.names,但只打印出一个字符串。我假设在幕后,它是一个被串行化为字符串的PyObject。我还要确认函数体确实存储在c.names

2)marshal dump是否将函数存储为字节码指令或未编译的文字?当我搜索操作码\ x83(RETURN_VALUE)时,我倾向于未编译的文字,它只在转储中出现一次。我相信这意味着只有一个return语句应该有两个:一次退出函数hello,一次返回None退出脚本。

Python 2.7.13+ (heads/2.7:96f5020597, May 26 2017, 15:26:13)
[GCC 4.2.1 Compatible Apple LLVM 7.3.0 (clang-703.0.31)] on darwin
Type "help", "copyright", "credits" or "license" for more information.

1 个答案:

答案 0 :(得分:1)

让我们打破这一点。

首先,让我澄清CPython如何存储功能。解析函数时,CPython将函数数据存储在代码对象中。 CPython使用代码对象来存储函数,类和模块。然后,代表该函数的代码对象序列化成特定的字节代码格式。

函数的代码对象存储在__code__属性中:

>>> def foo():
    pass

>>> 
>>> foo.__code__
<code object foo at 0x7f8bd86ce5d0, file "<pyshell#14>", line 1>
>>> 

这些代码对象包含与函数相关的各种数据,例如函数参数,引用的常量(例如1"Hello")和名称。函数的字节码存储在.co_code attrbiute中。这是CPython运行你的函数时实际执行的内容:

>>> def foo():
    pass

>>> foo.__code__.co_code
b'd\x00\x00S' # bytecode for foo
>>> 

现在您已了解CPython的基本知识,我们可以解决您的具体问题。

  

有没有办法可以从CPython代码对象访问函数体。最接近我可以得到它c.names但只打印出一个字符串。我假设在幕后,它是一个被串行化为字符串的PyObject。我还要确认函数体确实存储在c.names中。

函数体 不是 存储在代码对象的co_name属性中。它存储在.co_code属性中,如上所述。在你的另一个假设中,你也有一点点。从技术上讲,因为Python&#34; inheirt&#34;从PyObject开始,将函数体序列化为PyObject序列化为字符串是正确的。但是,最好将它序列化为PyStringObject,这是表示字符串的特定类型。

  

marshal dump是否将函数存储为字节码指令或未编译的文字?当我搜索操作码\ x83(RETURN_VALUE)时,我倾向于未编译的文字,它只在转储中出现一次。我相信这意味着只有一个return语句应该有两个:一次退出函数hello,一次返回None退出脚本。

它既没有。 marhsal.dumps()获取代码对象,将整个代码对象序列化为CPython特定格式,并返回表示序列化代码对象的bytes对象。但是,你的第二个陈述是正确的。在每个Python脚本的末尾,返回隐式None。通过将空参数传递给dis.dis()

可以观察到这一点
>>> import dis
>>> dis.dis("")
  1           0 LOAD_CONST               0 (None)
              3 RETURN_VALUE
>>> 
  

我知道<code object hello at 0x1006c9230 ...>未存储在原始c的co_code属性中。这是因为无论我如何更改def hello()的内部,都会给出相同的反汇编输出。要清楚这是函数/脚本中的函数,而不仅仅是您在示例中给出的函数。

对于您的具体示例,变量c是代表模块的代码对象 - 而不是函数 - &#34; hello.py&#34;。您的权利,功能 hello()的代码对象不在co_code中。它存储在模块的代码对象的co_consts属性中:

>>> co = compile(open('hello.py').read(), 'hello.py', 'exec')
>>> co.co_consts
(<code object hello at 0x7fedcbd3dc00, file "hello.py", line 1>, 'hello', None)
>>> 

这是因为Python执行代码的方式。常量不直接存储在代码对象的字节码中。相反,它们存储在自己独立的元组中。每当在函数代码中引用常量时,实际常量存储在co_consts中,并且 index 对应于co_consts中所述常量的位置被放入字节中代码。

您的hello()代码对象的反汇编程序输出永远不会更改的原因是因为所有dis.dis()正在执行的操作只是显示{的字符串表示 {1}}代码对象。更改代码时,hello() 的代码对象会更改,但hello()会显示该更改。它不显示dis代码对象的实际已更改属性。