有人能给我任何暗示XLA-JIT在CPU后端有更好的性能吗?
我在单个CPU上mnist基准测试时没有使用TensorFlow并使用XLA-JIT(手动模式)。使用XLA-JIT可以在没有XLA-JIT的情况下对TensorFlow实现13.6倍的加速。
由于操作融合经常在谈到XLA-JIT的优点时提到,我自然认为这种技术可能是背后的原因,所以我学习了源代码,发现融合程序大致相同像这样(如果有什么不对的地方请纠正我):
考虑到显着的性能提升,我认为必须有更多我想念或错误的事情。我可以接受你的建议吗?