将同一对象的多个图像馈送到神经网络以进行对象检测的方法

时间:2017-05-24 07:57:58

标签: machine-learning neural-network computer-vision deep-learning image-recognition

我正在考虑一个使用神经网络进行物体识别的玩具项目。从一个特定角度观察时,我的一些物体非常相似,但从不同角度观察时很容易区分。因此我的问题是:

将同一对象的多个图像输入网络的方法是什么?或者存在哪些网络架构可以利用以不同角度拍摄的多个图像?

我对机器学习技术有很好的理解,但对神经网络只有基本的理解。所以我在这里寻找的是与谷歌搜索相关的方法,技术和其他术语的名称,以及可能感兴趣的特定论文或文章的链接。

1 个答案:

答案 0 :(得分:2)

使用多维数据的最常见的方法是使用多维卷积(https://keras.io/layers/convolutional/#conv3d),循环网络(http://www.deeplearningbook.org/contents/rnn.html)或多个输入,这类似于多维卷积。

Recurrent Networks处理数据序列,并且可以看到图像堆栈的序列。相比之下,多维卷积主要利用附近的数据。因此,在图像堆栈中相同的空间高度相关非常重要。如果不是这种情况,您可能需要考虑在神经网络中使用多个输入。