如何为完全卷积网络格式化数据集?

时间:2017-12-24 23:36:03

标签: neural-network deep-learning caffe

我正在尝试为完全卷积网络准备我的数据集。我查看了一些数据集,并且我很难弄清楚如何格式化它。例如,在Kitti数据集中,培训文件夹中有这2个图像和此文本文件:

图片1 enter image description here

图片2 enter image description here

文字

  

P0:7.215377000000e + 02 0.000000000000e + 00 6.095593000000e + 02 0.000000000000e + 00 0.000000000000e + 00 7.215377000000e + 02 1.728540000000e + 02 0.000000000000e + 00 0.000000000000e + 00 0.000000000000e + 00 1.000000000000e + 00 0.000000000000 E + 00   P1:7.215377000000e + 02 0.000000000000e + 00 6.095593000000e + 02 -3.875744000000e + 02 0.000000000000e + 00 7.215377000000e + 02 1.728540000000e + 02 0.000000000000e + 00 0.000000000000e + 00 0.000000000000e + 00 1.000000000000e + 00 0.000000000000e + 00   P2:7.215377000000e + 02 0.000000000000e + 00 6.095593000000e + 02 4.485728000000e + 01 0.000000000000e + 00 7.215377000000e + 02 1.728540000000e + 02 2.163791000000e-01 0.000000000000e + 00 0.000000000000e + 00 1.000000000000e + 00 2.745884000000e-03   P3:7.215377000000e + 02 0.000000000000e + 00 6.095593000000e + 02 -3.395242000000e + 02 0.000000000000e + 00 7.215377000000e + 02 1.728540000000e + 02 2.199936000000e + 00 0.000000000000e + 00 0.000000000000e + 00 1.000000000000e + 00 2.729905000000e- 03   R0_rect:9.999239000000e-01 9.837760000000e-03 -7.445048000000e-03 -9.869795000000e-03 9.999421000000e-01 -4.278459000000e-03 7.402527000000e-03 4.351614000000e-03 9.999631000000e-01   Tr_velo_to_cam:7.533745000000e-03 -9.999714000000e-01 -6.166020000000e-04 -4.069766000000e-03 1.480249000000e-02 7.280733000000e-04 -9.998902000000e-01 -7.631618000000e-02 9.998621000000e-01 7.523790000000e-03 1.480755000000e- 02 -2.717806000000e-01   Tr_imu_to_velo:9.999976000000e-01 7.553071000000e-04 -2.035826000000e-03 -8.086759000000e-01 -7.854027000000e-04 9.998898000000e-01 -1.482298000000e-02 3.195559000000e-01 2.024406000000e-03 1.482454000000e-02 9.998881000000e-01 -7.997231000000e-01   Tr_cam_to_road:9.999570839814e-01 -5.508724949246e-03 -7.452906591504e-03 9.610489538319e-03 5.425697507328e-03 9.999234779341e-01 -1.111504746388e-02 -1.597134401910e + 00 7.513565886504e-03 1.107413060494e-02 9.999104059534e-01 2.788606298060e-01

这个数据集与我见过用于CNN的常规数据集非常不同。因此,我有以下问题:

  1. 文本文件中发生了什么?
  2. 如何使用纯色像素生成第二张图像?
  3. FCN的一个提议优点是能够提供任意大小的输入图像。我输入的图像有多小 - 50x50太小了?我找了一些关于这个的文献,但找不到多少。
  4. 基本上,我正在尝试创建一个使用此network from this github的数据集。其中只有2个用于培训的文件夹:training_img_lmdbtraining_label_lmdb。所以,我不确定文本文件或像素化图像是否在标签文件夹中。任何帮助将不胜感激!!

1 个答案:

答案 0 :(得分:0)

  1. 看起来像某种遥测,来自Tr_cam_to_road,Tr_velo_to_cam等...通常数据集会有文档

  2. 请澄清。你发布了图片。你肯定知道如何加载图像吗?

  3. 你是对的,但任何纯卷积网络的最小输入大小都等于单个输出像素的输入邻域大小。