python - 标准化张量图像-优化

我使用torchmodel进行推断。运行推理时，我注意到张量图像的规范化消耗了推理时间的一半。

该函数称为：

input_image_normalizer = Compose([
    ToTensor(),
    Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

删除归一化功能时，推理FPS会加倍。

是否可以进行优化以减少归一化操作的时间？我正在考虑将Normalize函数放到GPU上吗？如果是这样，那该怎么办？我有CUDA和Torchvision。