如何计算张量流中来自tfprof的翻牌?

时间:2017-11-20 08:12:15

标签: tensorflow

如何从flops获取tfprof的数量我的代码为:

def calculate_flops():
    # Print to stdout an analysis of the number of floating point operations in the
    # model broken down by individual operations.
    param_stats = tf.contrib.tfprof.model_analyzer.print_model_analysis(
    tf.get_default_graph(),
    tfprof_options=tf.contrib.tfprof.model_analyzer.
    TRAINABLE_VARS_PARAMS_STAT_OPTIONS)
    print(param_stats)

但结果显示flops = 0。 我该如何计算翻牌数。我可以举个例子吗?

1 个答案:

答案 0 :(得分:5)

首先,截至目前,已弃用tfprof.model_analyzer.print_model_analysis,并且应根据官方文档使用tf.profiler.profile

鉴于我们知道FLOP的数量,我们可以通过测量正向通行证的运行时间并除以FLOP/run_time

来获得正向通过的FLOPS(每秒FLOP)

我们举一个简单的例子。

g = tf.Graph()
sess = tf.Session(graph=g)
with g.as_default():
    A = tf.Variable(initial_value=tf.random_normal([25, 16]))
    B = tf.Variable(initial_value=tf.random_normal([16, 9]))
    C = tf.matmul(A,B, name='output')
    sess.run(tf.global_variables_initializer())
    flops = tf.profiler.profile(g, options=tf.profiler.ProfileOptionBuilder.float_operation())
    print('FLOP = ', flops.total_float_ops)

输出8288。但为什么我们得到8288而不是期望的结果7200=2*25*16*9 [a] ?答案与张量AB初始化的方式相同。使用高斯分布进行初始化会花费一些FLOP。通过

更改AB的定义
    A = tf.Variable(initial_value=tf.zeros([25, 16]))
    B = tf.Variable(initial_value=tf.zeros([16, 9]))

给出预期输出7200

通常,网络的变量在其他方案中使用高斯分布进行初始化。大多数时候,我们对初始化FLOP不感兴趣,因为它们在初始化期间完成一次,并且在训练期间也不会发生,也不会发生推断。那么,如何才能获得FLOP的确切数量而忽略初始化FLOP

使用pb冻结图表

以下代码段说明了这一点:

import tensorflow as tf
from tensorflow.python.framework import graph_util

def load_pb(pb):
    with tf.gfile.GFile(pb, "rb") as f:
        graph_def = tf.GraphDef()
        graph_def.ParseFromString(f.read())
    with tf.Graph().as_default() as graph:
        tf.import_graph_def(graph_def, name='')
        return graph

# ***** (1) Create Graph *****
g = tf.Graph()
sess = tf.Session(graph=g)
with g.as_default():
    A = tf.Variable(initial_value=tf.random_normal([25, 16]))
    B = tf.Variable(initial_value=tf.random_normal([16, 9]))
    C = tf.matmul(A, B, name='output')
    sess.run(tf.global_variables_initializer())
    flops = tf.profiler.profile(g, options = tf.profiler.ProfileOptionBuilder.float_operation())
    print('FLOP before freezing', flops.total_float_ops)
# *****************************        

# ***** (2) freeze graph *****
output_graph_def = graph_util.convert_variables_to_constants(sess, g.as_graph_def(), ['output'])

with tf.gfile.GFile('graph.pb', "wb") as f:
    f.write(output_graph_def.SerializeToString())
# *****************************


# ***** (3) Load frozen graph *****
g2 = load_pb('./graph.pb')
with g2.as_default():
    flops = tf.profiler.profile(g2, options = tf.profiler.ProfileOptionBuilder.float_operation())
    print('FLOP after freezing', flops.total_float_ops)

输出

FLOP before freezing 8288
FLOP after freezing 7200

[a] 对于产品AB而言,矩阵乘法的FLO​​P通常为mq(2p -1),其中A[m, p]B[p, q]但TensorFlow由于某种原因返回2mpq 。已打开issue以了解原因。