python - 使用从Kinect派生的深度信息从图像中提取手部区域

首先，抱歉，如果标题太长。

我有一个“Leap Motion数据集和Microsoft Kinect手动采集”数据集。它包含收购：

彩色图像（rgb.png）是显示一些手势的人的图像。

我想要的只是提取这些图像的手区域并将它们保存为单独的图像。但问题是手区域不在同一个位置。一种方法可能是使用depth.bin文件，因为它由包含从摄像机平面到最近对象的距离（以毫米为单位）的像素组成。手部区域比身体本身更靠近相机，因此有可能提取手部区域。但我对这些过程并不了解。

如何使用.bin文件中的信息并提取RGB图像的手区域并单独保存提取的图像（希望在 OpenCV Python环境 ）？< / p>

我会详细解释问题的某些部分是否不够明确！

感谢您的耐心等待！

数据集链接为here

编辑：我在Matlab中读过.bin文件，其大小为614400x1。不应该是307200x1，因为640 * 480 = 307200.为什么它大2倍？我错过了一些棘手的东西吗？请帮助我抓住这些东西的直觉！