我想做的是......
数据集:手拿棒的图片,我知道关节的三维位置或每张图片的三维姿势。照片是从相同的位置拍摄的,所以手是唯一移动的。 输入:手的图片 输出:3D手姿势这是可能的,如果是这样,怎么办呢?由于我是ML的新手,我想获得理解以获得良好的理解。谢谢!
答案 0 :(得分:0)
这应该是可能的,但这将是一项艰苦的研究项目。
由于问题需要如此复杂的输出,因此针对该问题的机器学习方法将需要大量的训练示例,而不是手动生成。一个好的方法可能是制作一个小程序,可以3D渲染姿势x的手的图像,随机照明,随机手大小等。然后通过深度学习将数百万的训练图像提供给卷积神经网络,最终输出神经元编码姿势的地方。
使用相同的程序,另一种方法是在姿势上进行渐变下降,重复渲染姿势,直到获得最佳匹配。这被称为生成模型。它不涉及神经网络,但它可能会很慢。毫无疑问,其他方法也是如此。
如果您有兴趣,Microsoft一直致力于解决此问题,以启用新类型的Xbox Kinect游戏:https://www.microsoft.com/en-us/research/project/fully-articulated-hand-tracking/
总而言之,如果您不熟悉计算机视觉和机器学习,我建议您先从简单的挑战开始。