应用错误收集

我正在训练一个带有 ConvLSTM 模块的对象检测网络。我使用较早的帧来提高当前帧的网络性能。在训练期间，我计算 LSTM 在每个时间步中的输出损失。

例如，如果每个输入序列的长度 T = 4：

Input  = (t0 t1 t2 t3)
Output = (t0 t1 t2 t3)

# Input is a 5D tensor of size (Batch=1, T=4, Channels, Height, Width)

现在计算所有时间步的损失。 (t0 t1 t2 t3)

我想尝试的是：

Input  = (t0 t1 t2 t3)
Output =          (t3)  # don't care about the earlier outputs

网络将根据最后一帧“t3”进行优化。

这种修改对提高最后一帧的网络性能是否有意义？