我正在用一个36x60形状的眼睛图像训练神经网络。所以我只能使用36x60的图片预测结果吗?但是在我的应用程序中,我有一个视频流,该视频流分为多个帧,每帧预测68个地标点。在眼范围内,我可以选择视点,然后使用OpenCV中的“ boundingrect”功能,很容易获得裁剪的图像。但是此图像没有格式36x60。获取可用于预测的36x60数据的正确方法是什么?或者如何将神经网络用于其他形式的数据?
答案 0 :(得分:2)
神经网络(据我所知不多)具有固定的输入形状,只允许批量大小自由。这(可能)适用于您见过的每个神奇的神经网络。不要太害怕通过现成的采样将图像重塑为网络的预期输入大小。健壮的计算机视觉网络通常会在增强数据方面进行培训;随机缩放,倾斜和其他方式进行转换,以(除其他外)扩大网络处理这种不可避免的缩放情况的能力。
当然有一些警告。用于预测的输入应尽可能与经过训练的数据集相似,也就是说,应将模型应用于为其设计的数据。例如,考虑为卫星应用制造的物体检测网络。如果将同一网络应用于无人机图像,则对象的相对大小可能会比为其设计网络的对象(特别是其锚框大小)大得多。
Tl; dr:假设您使用正确的网络进行工作,请不要担心缩放图像/帧以适应网络的输入。