使用神经网络估算静止图像或视频流中的距离是否可行?
我有一个激光测距仪,可提供视频输出和距离测量。然而,距离测量需要将激光照射到环境中,这并不总是理想的或允许的。我想有一个选项可以将其切换到“被动”模式,其中图像被馈送到神经网络,然后提供距离估计而无需激活激光。最初将在活动模式下对来自游侠查找器的图像+距离对进行网络训练。
我不是神经网络方面的专家,虽然谷歌在图像分类和姿势估计的神经网络中有很多用途,但我找不到任何有关距离估计的现有技术。这看起来很实用,还是我在浪费时间?每N个像素一个输入的基本前馈网络是否足够,或者我需要不同的架构?
答案 0 :(得分:6)
是的,假设你有训练的地面实况数据,这是可能的。早在2006年,就有关于这一主题的出版物,但使用马尔可夫随机场。你可以阅读它here。最近使用Convolutional Neural Networks和Deep Convolutional Neural Fields完成了这项工作。这3个例子估计了图像上每个像素的深度,因此需要对每个像素进行正确的测量。
如果您使用的是平面测距仪,根据您的激光分辨率,您将拥有图像各列的正确深度。这可能意味着您需要使用图像中的单行像素训练您的NN,而不是完整图像。对于全景深度提取,人们通常使用双目相机或像Kinect这样的东西(当然只是用于训练)。