我有兴趣创建一个使用Microsoft Kinect检测像笔这样的对象的软件。我记得100张正面图像和200张负面图像,以便通过人工神经网络拍摄。我的问题是:如何将这些图像转换为ANN的输入?我猜最后一层有一个神经元,因为一个输出是否是笔,我猜输入也是一个我想要总共使用3层。但我不知道我是否应该在矩阵中转换正负图像,或者我该怎么办?
答案 0 :(得分:4)
首先,欢迎使用Stackoverflow!
我从来没有亲自处理过使用Kinect进行图像识别的问题,但是如果可能的话,你应该将图像缩小到一个相当合理的大小,例如100x100
,这样它仍然可以管理。
您还应尝试将图像转换为grayscale
,因为这也有助于计算效率,开发时间,并且比RGB更容易启动。
输入图层不为1,这是给定的。如果我们指的是尺寸为100x100的图像,则输入总数应为10000
,每个像素一个。请记住,您正试图尽可能精细地分解数据,以便ANN可以检测数据中的模式。
输出层实际上应该有2 neurons
,这是有充分理由的。请记住,每个输出神经元都在测量输入属于相应类的可能性。通过拥有2个神经元,每个神经元可以代表正类(是,这是笔)或负类(不,这不是笔)。因此,通过拥有2个神经元,您可以获得图像属于该类的概率,然后您可以选择最高值作为答案。
3总层数应该足够,你可能永远不需要更多。有一些非常好的文章可供您确定要使用的图层数量,例如this one 我希望这有帮助!如果您有任何其他问题,请与我们联系。