我需要解决以下问题:
说我们的盒子里有个球,弹跳起来。每个T_ball,我都会在框中看到球的图像。每个T_occlusions,我都会沿x或y轴获得图像的最大值(也就是说,没有噪音,我将获得球的x或y位置)。
通常,T_occlusions << T_ball。我想获得每种T_occlusions作为图像的球的运动预测。
现在让我们考虑一下T_occlusions和T_ball是恒定的。
下面的情况表示为T_occlusions = T_ball / 2。
我已经可以通过Keras中的4层ConvLSTM网络来预测下一帧而无需使用遮挡。
如何将1D / 2D数据连接在一起?
我想到了以下内容:
对图像进行上采样(对于每个遮挡,请考虑最后一个输入图像),并向矢量添加标量,以指示自上次已知图像以来的时间。告诉网络输入的图像不是全新图像时,这应该可以解决频率不匹配的问题。
对遮挡进行上采样,以为图像创建第二个深度,并将其提供给ConvLSTM
我如何仅基于每个T_ball的地面真相来训练网络以生成正确的中间图像?
我可以考虑对输入序列进行训练:(I0,O0),(I0,O1),(I1,O2),(I1,O3),并期望它给出I2吗?
我可以使用任何网络吗?也许是两个单独的网络,交换信息(一个LSTM和一个ConvLSTM)?
最后,T_ball不是真正恒定的,而是在一个序列内以及序列之间变化。我考虑过对它进行上/下采样以适合我的网络。有没有其他办法?我可以选择每批中具有相同模式的序列,并希望获得最佳结果吗?
非常感谢!