我一直在尝试使用量化来加快对模型的推断。这是一个多流模型,大量使用了3d卷积。
以下原因由于各种原因而无效:
在Keras中设置K.set_floatx('float16')
;不支持带有TensorFlow后端的Conv3D
层。
在TensorFlow中没有受支持的进行训练后量化的方法,建议使用TensorFlow Lite进行。
TensorFlow Lite无法优化Conv3D
-op。
最有前途的方法:TensorRT也会失败。如果您仔细阅读文档,就会发现显然没有3D卷积的本机支持。
即使我能够执行前三个操作之一,也很可能会产生很小的差异,因为仅使用float16
并不一定意味着Tesla T4可以在其Tensor Core上有效地操作这些功能。似乎获得NVIDIA广告宣传的提速的唯一方法是使用TensorRT。
Conv3D模型是否有办法使用FP16模式下的Telsa T4 Tensor Core来显着提高速度?