我是神经网络的新手,并且确实了解它们是如何工作的。我打算创建一个神经网络,识别3d场景中的基本对象及其在图像中的位置。
从我到目前为止所读到的,典型的方法是创建一个神经网络,其中输入的神经元数量为image_width * image_height * 3(对于每种颜色),然后反向传播(图像识别的基本示例{{3我还读到了更智能的方法。问题是,因为我还在学习,我打算保持一种基本的方法来获取信息(这可能与初学者状态有关,也可能没有) )。
我怎样才能以直截了当的方式这样做?真正的项目是在场景中移动并检测某些基本(或未来)对象,如球。
这是纯粹的学术,所以任务的实际范围是学习,所以不完美的解决方案也被考虑在内。
我想要的是检测图像中的球和 实际上有球的位置
答案 0 :(得分:3)
这是一个很好的网址,你可以阅读解决类似任务(使用DNN在图像中定位面部关键点):http://danielnouri.org/notes/2014/12/17/using-convolutional-neural-nets-to-detect-facial-keypoints-tutorial/
长话短说: 1)这是一个回归任务。您需要创建和训练ANN,它将输出您感兴趣的对象的x,y坐标 2)您需要使用卷积神经网络来实现它 - 它们可以显着提高图像工作的效率
答案 1 :(得分:1)
通常,没有必要使用对象的颜色进行检测,这只会增加额外的复杂性。这就是为什么通常灰度图像基本上用于对象的检测/分类。
您可以使用deep reinforcement learning方法训练人工神经网络(ANN),结合常规和完全连接 ANN是检测和反对的。
作为替代方案,我建议您使用扫描带有矩形的图像,然后您不仅可以检测,还可以检测矩形的位置。
此外,您可以使用其他一些方法来训练ANN,例如method,我目前正在使用它来进行织物疵点检测,并且还通过面部识别任务进行了测试
事实上,结合使用单一方法可以获得更好的结果。
在我的情况下,对于特定情况,通过使用上述两者(ANN簇和具有重叠的扫描窗口)进行结构错误检测的任务,它给出了错误检测错误的概率为0.1024%,不为15%。检测整个图像的错误。
通过与Gaussian filter的组合使用,我们的误检率低于0.0324%,未检测低于5%,性能提高10倍以上。
以下是本文的link,其中详细介绍了我用于检测结构错误的方法