首先,我创建了自己的人体姿势图像数据集(来自视频),用作ConvNet的输入(研究的第一部分是图像/动作分类)。我花了时间在python中编写一个程序,该程序将:
然后将组合的RGB像素值和标签写入csv文件。 使用以下行写输出:
def write_list_to_file_train(file_list, train_label):
'''write image list to a csv file for training images'''
image_name_file = open(TRAIN_OUTPUT_FILE, 'w' )
image_names = file_list
label = train_label
df = pd.DataFrame({"image_names": image_names, "label": label})
df.to_csv(image_name_file, index=False)
每行输出CSV文件的内容看起来像这样((0),(1)等是标签):
[(97, 96, 96), (110, 109, 109), (105, 104, 104),... (0)]
[(97, 97, 96), (111, 110, 110), (106, 104, 105),... (1)]
...
我本来只是将图像位置和标签保存到输出文件中,但是在使用该位置作为输入很困难之后,我切换到保存像素值(因为其他一些数据集也这样做了,我认为可能会更容易)。
问题是我不确定输出像素值以便被读入ConvNet的最佳方法和最佳格式。另外,我不确定编写代码以将信息输出到CSV文件(将其更容易用作输入)的最佳方式。如果可以的话
我看了很多MNIST实例或其他转换为灰度的数据集,但我想保留图像中的颜色以供研究。