应用错误收集

我正在尝试找出特定神经网络的硬件利用率。

我正在使用GPU加速器，并且正在运行TensorFlow代码并使用tf.contrib.tfprof.ProfileContext()进行配置

分析结果显示MatMul内核已在GPU和CPU上执行。

加速时间（GPU）：79.74ms（100.00％，44.37％）

CPU时间：70.17ms（100.00％，10.34％）

Matmul内核应使用GPU，因为它在GPU上具有支持定义。那么，为什么Matmul（或任何其他Op）的某些部分也位于CPU上？