我正在尝试实施卷积神经网络(CNN)模型来对手势进行分类。数据集不容易获得,因此我需要准备它。
我应该如何准备数据集?我拍摄的图像是否应包含除手或手之外的物体?哪个会给我一个准确的模型,即使框架中有背景和其他物体,它也能正常工作?
答案 0 :(得分:1)
您的问题的良好数据集:
您应该考虑在背景中涉及不同的背景和对象。
以下链接可能会对您有所帮助:
https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html
答案 1 :(得分:1)
这是一个例子: http://cims.nyu.edu/~tompson/NYU_Hand_Pose_Dataset.htm
它包含其他图像只意味着您必须在管道中实现某些东西以隔离手。我建议只在图像中使用手,这样你就可以立即开始对图像进行建模。
该领域的许多cnn架构使用多分辨率CNN。所以在您的数据准备中只需制作多个分辨率并馈送到多输入CNN。你可以使用Keras功能API来实现这一点。低分辨率图像可以区分某些非常不同的姿势,较高分辨率可以专注于微小差异。
显然,标准数据增强并不适合手势。镜像或更改角度等内容可能会使您的数据不适合给定的标签。如果你没有那么多,那么你的数据增加会更加保守。