所以这是我的问题:
我想使用动作捕捉相机系统制作我自己的数据集,以获取地面真实姿势和一个RGB相机来获取图像,然后将其用作我的网络的输入,训练/测试convNet。
我已经查看过tensorflow,caffe和Matlab的其他数据集。我查看了MNIST,Cats / Dogs,Iris,LSP,HumanEva,HumanEva3.6,FLIC等数据集,并查看并试图尽可能地了解他们的数据。我看过网上的人试图制作自己的数据集。通常,当您使用其数据集作为示例时,您下载已包含标签的.txt文件。
如果有人可以向我解释如何使用带有标签的图像数据将其提供给我的网络,这将是一个巨大的帮助。在使用tensorflow将.txt文件输入网络并获得正确的预测输出之前,我已经制作了代码。但是,我的大脑缺少一些东西来理解如何用标签输入图像。如何创建该数据集?
答案 0 :(得分:2)
您的输入图像和标签是两个独立的变量。您将编写单独的代码来导入它们。视频通常需要转换为JPG文件(直接阅读视频文件是一种巨大的痛苦,主要是因为您无法轻易地随机跳过视频)。
构建数据的最简单方法可能是通过包含文件名,poseinfoA,poseinfoB等的CSV。文件名是指磁盘上的JPG图像。
为了开始基础知识,我建议查看Aymericdamen教程示例,我没有在任何地方找到清晰简洁的教程。
https://github.com/aymericdamien/TensorFlow-Examples
这些示例不会详细介绍数据输入管道。要在tensorflow中设置一个好的数据输入管道,我建议你使用new(从TF 1.4开始)数据集对象。它将迫使您进入一个良好的数据输入pipline工作流程,这是所有数据输入在tensorflow中的方式,因此值得学习。用这种方式编写它也很容易测试和调试。这是您想要遵循的指南。
https://www.tensorflow.org/programmers_guide/datasets
您可以从CSV启动数据集对象,并使用dataset.map_fn()
使用tf.image.decode_jpeg
由于你正在进行姿势估计,我还会建议我最近遇到一个可能让你感兴趣的好博客。主题是分割,但姿势估计非常相关。
http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review