我正在尝试在4K分辨率的图像上训练车辆探测器,每张图像约100辆小型车辆(车辆尺寸约100x100像素)。
我目前正在使用全分辨率,这会花费我很多内存。我正在训练使用32核和128 GB RAM。目前的架构是更快的RCNN。我可以训练第二阶段批量大小为12,first_stage_mini_batch_size为50.(我缩小了两个直到我的记忆力足够)。
我目前只将数据集分为三类(汽车,卡车,货车)。
我假设提供其他信息,如:
将改善培训过程。
是否会截断包含重叠的车辆?
观看/姿势和其他标签等其他信息是否也会改善培训流程,还是会使培训更难?
答案 0 :(得分:1)
对于您的问题,由于图像和小型车的高分辨率,开箱即用的配置文件将无法正常工作。我建议:
答案 1 :(得分:1)
所以看起来更改数据的工作正常。我不确定它如何影响模型,基本上它是在没有这些例子的情况下预先训练并且用它们进行微调
LOG:
INFO:tensorflow:Restoring parameters from /home/.../train_output/model.ckpt-3190
来自https://arxiv.org/abs/1311.2901的真实案例: ImageNet和Caltech数据集有一些共同的图像。在评估使用ImageNet进行训练的模型与Caltech的验证效果时,您应该在训练前从ImageNet中删除重复项。