标签: tensorflow raspberry-pi3 tensorflow-xla
我正在尝试在Raspberry Pi3 GPU(QPU)上实现Tensorflow OpKernel,用于Conv2D,Pooling,ReLU等操作。 这些操作主要是为了在推理过程中提高性能,而不关心训练(因此反向传播和渐变)。
使用XLA是一种正确的方法来实现这一目标还是有更好的方法吗?