使用深度神经网络估算对象大小

时间:2017-10-16 17:28:07

标签: machine-learning neural-network deep-learning computer-vision data-science

我有一个大型的车辆图像数据集,其中包含长度的基本事实(超过100k样本)。是否有可能训练深度网络来估计车辆长度?

我还没有看到任何与使用深度神经网络估算物体大小有关的论文。

2 个答案:

答案 0 :(得分:2)

[更新:我没有注意到问题中的计算机视觉标记,所以我的原始答案是针对不同的问题]

目前的卷积神经网络非常适合从原始像素中识别车辆模型。该技术称为transfer learning:采用一般预训练模型,如VGGNet或AlexNet,并在车辆数据集上进行微调。例如,CS 231n课程项目的here's a report就是这样做的(注意:2015年由学生完成)。难怪有apps已经在智能手机上做到这一点。

所以它或多或少是一个解决的问题。一旦您了解了模型类型,就可以轻松查看其尺寸/长度。

但是如果你问一个更普遍的问题,当车辆没有标准时(例如有拖车,或以某种方式修改),这就更难以实现更多对于一个人。透视的轻微变化可能导致严重错误。更不用说车辆的某些部分可能只是不可见。所以这个问题的答案是否定的。

原始答案(假设数据是一般车辆功能表,而不是图片)

我发现车辆尺寸预测与house price prediction之间没有任何区别。过程是相同的(在最简单的设置中):模型从训练数据中学习特征和目标之间的相关性,然后能够预测看不见的数据的值。

如果你有良好的输入功能和足够大的训练集(100k会做), 你可能甚至不需要一个网络。在我看过的很多情况下,simplest linear regression会产生非常合理的预测,而且几乎可以立即训练。因此,一般来说,答案是"是",但它归结为您拥有的特定数据(功能)。

答案 1 :(得分:0)

您可以在某些严格的条件下执行此操作。

计算机视觉/多视图几何的简要介绍:

基于多视图几何的基础知识,识别对象大小的主要问题是找到从摄像机视图到真实世界坐标的转换函数。通过应用不同的条件(即捕获许多连续图像 - 视频/ SfM-,从不同角度拍摄相同对象的图像),我们可以估计该转换函数。因此,这完全取决于相机参数,如焦距,像素宽度/高度,失真等。 一旦我们将相机转换为真实世界转换功能,就可以非常轻松地计算相机到点的距离,从而确定物体的大小。

因此,根据您当前的任务,您需要提供

  • 图像
  • 相机的内在参数
  • (可选)相机的外在参数

并获得您希望的输出。

或者,如果您可以固定相机(相同型号,相同的内在/外在参数),您可以直接找到相同相机的图像和距离/物体尺寸之间的相关性,只需将图像作为唯一输入。但是,NN很可能不适用于不同的相机。