假设我正在建立一个网络来定位对象。我的训练数据包括在5个不同位置捕获的图像以及一个较小的数据集(每个位置大约有2k张图像)。我应该添加所有图像,对其进行随机整理,然后将其分发到training(60%),dev(20%),test(20%)中,还是应该从3个位置(作为训练),1个位置(作为测试)和1个位置(作为位置)获取数据开发人员。
答案 0 :(得分:1)
理想情况下,训练集,测试集和验证集应从同一分布中提取,因此,您应添加所有图像,将它们混洗,然后将它们分布到训练中(60%),dev(20%) ,测试(20%)。同样,这也将帮助您使位置更加不变(因为它将学会忽略5个位置而不是3个位置),并通过增加的多样性更好地进行泛化。