应用错误收集

我一直在尝试使用量化来加快对模型的推断。这是一个多流模型，大量使用了3d卷积。

以下原因由于各种原因而无效：

即使我能够执行前三个操作之一，也很可能会产生很小的差异，因为仅使用float16并不一定意味着Tesla T4可以在其Tensor Core上有效地操作这些功能。似乎获得NVIDIA广告宣传的提速的唯一方法是使用TensorRT。

Conv3D模型是否有办法使用FP16模式下的Telsa T4 Tensor Core来显着提高速度？