Question

我正在编写一个界面来帮助我分析python脚本。我借用代码来执行profile.py source code的python脚本。我意识到，当我连续两次分析相同的代码时，它会第二次返回不同数量的函数调用。例如，在myscript.py上执行以下代码：

from cProfile import Profile
import sys
import os.path

for i in range(3):
    prof = Profile()

    progname = 'myscript.py'
    sys.path.insert(0, os.path.dirname(progname))
    with open(progname, 'rb') as fp:
        code = compile(fp.read(), progname, 'exec')
    globs = {
            '__file__': progname,
            '__name__': '__main__',
            '__package__': None,
            '__cached__': None,
            }
    prof.runctx(code, globs, None)
    prof.create_stats()
    print(len(prof.stats))

给了我

511
30
30

作为输出。为什么第二次调用函数的数量会变小？哪个号码是正确的号码？我能做什么才能得到同样的结果？

myscript.py看起来像：

import numpy
import numpy.linalg

if __name__ == '__main__':

    r = numpy.random.rand(1000, 1000)
    numpy.linalg.inv(r)

Answer 1

似乎函数调用计数不同的原因是因为myscript.py导入的模块在第二次运行代码时不会再次导入。

获得一致结果的第一种方法是在执行分析之前导入myscript.py。但是，这意味着如果我导入的模块在导入时执行某些任务，则不会对其进行分析。

prof = Profile()

progname = 'myscript.py'
sys.path.insert(0, os.path.dirname(progname))
modname, _ = os.path.splitext(os.path.basename(progname))
__import__(modname, globals(), locals(), [], 0)
with open(progname, 'rb') as fp:
    code = compile(fp.read(), progname, 'exec')
globs = {
        '__file__': progname,
        '__name__': '__main__',
        '__package__': None,
        '__cached__': None,
        }
prof.runctx(code, globs, None)
prof.create_stats()
print(len(prof.stats))

我找到的第二种方法是删除执行脚本时注册的所有模块。优点是，如果我在GUI运行时修改源，它将重新加载更改。我现在的缺点是，一些atexit注册处理程序现在崩溃，因为之前删除了所需的模块：

prof = Profile()

progname = 'myscript.py'
sys.path.insert(0, os.path.dirname(progname))
with open(progname, 'rb') as fp:
    code = compile(fp.read(), progname, 'exec')
globs = {
        '__file__': progname,
        '__name__': '__main__',
        '__package__': None,
        '__cached__': None,
        }
modules = sys.modules.copy()
prof.runctx(code, globs, None)
newmodes = [modname for modname in sys.modules if modname not in modules]
for modname in newmodes:
    del sys.modules[modname]
prof.create_stats()
print(len(prof.stats))

最后，我找到的最好的方法是在一个单独的过程中执行分析：

import concurrent.futures
import marshal
from cProfile import Profile
from pstats import Stats
import sys

progname = 'myscript.py'
with concurrent.futures.ProcessPoolExecutor() as executor:
    future = executor.submit(_run, progname)
    stats = Stats()
    stats.stats = marshal.loads(future.result())
    stats.get_top_level_stats()

def _run(progname):
    sys.path.insert(0, os.path.dirname(progname))

    with open(progname, 'rb') as fp:
        code = compile(fp.read(), progname, 'exec')
    globs = {
        '__file__': progname,
        '__name__': '__main__',
        '__package__': None,
    }
    prof = Profile()
    prof.runctx(code, globs, None)
    prof.create_stats()
    return marshal.dumps(prof.stats)

为什么第二次函数调用次数不同？

1 个答案: