我正在寻求有关培训Caffe AlexNet的帮助。该问题的摘要是,报告的Caffe网络连续训练的准确性(AlexNet在随机选择的200,000个ILSVRC 2012图像上)与从解算器状态快照恢复训练报告的准确性不同。
上面的图片显示,报告的准确度因快照前的迭代次数而异,并且与没有快照的培训不匹配。图中的X轴是迭代次数(或者,如果将每个点乘以迷你批量大小100,则处理的图像数)和Y轴,即测试精度。期望所有行都应该匹配,而不管快照的频率如何。
请注意,所有实验都采用相同的方式设置相同的培训/验证数据和参数(即相同的种子,相同的小批量,固定学习率政策,零动量等)。
感谢您的帮助。