标签: performance tensorflow deep-learning quantization flops
我正在尝试找出如何在TOPS中获得深度学习模型的性能。 我知道如何使用TF获得FLOPS,您可以找到this method。但是我实际上正在寻找类似但经过量化的东西。我不在乎该框架,因为我可以尝试将其转换为该框架。
例如,OpenVino和TensorRT允许将模型转换为FP16和INT8,但是性能可能取决于执行模式,因此我想知道我需要在INT8中运行什么硬件。
你们有个主意吗?