我很好奇,为什么当我在例如CNN上训练模型时,为什么必须在测试集上缩放测试集,而不是在训练集上缩放? 还是我错了?而且我仍然必须根据培训情况进行调整。 另外,我能否在CNN中训练一个包含正负元素的数据集作为网络的第一个输入? 任何参考的答案将不胜感激。
答案 0 :(得分:0)
缩放数据取决于需求以及您获得的提要/数据。测试数据仅按测试数据缩放,因为测试数据没有目标变量(测试数据中少了一项功能)。如果我们用新的测试数据来扩展培训数据,则我们的模型将无法与任何目标变量相关联,从而无法学习。所以关键的区别是Target变量的存在。
答案 1 :(得分:0)
我们通常使用3种类型的数据集来训练模型,
培训数据集
这应该是覆盖所有数据类型的均匀分布的数据集。如果您的火车有更多的时期,则该模型将习惯于训练数据集,并且只会对训练数据集进行适当的正确预测,这称为过度拟合。保持过度拟合的唯一方法是拥有从未训练过的其他数据集。
验证数据集
可以用于微调模型超参数
测试数据集
这是尚未经过模型训练的数据集,它从来都不是决定超参数的一部分,并且可以给出模型运行情况的现实。
答案 2 :(得分:0)
如果使用缩放和归一化,则测试集应使用训练期间使用的相同参数。 与此相关的一个很好的答案:https://datascience.stackexchange.com/questions/27615/should-we-apply-normalization-to-test-data-as-well
此外,某些模型倾向于要求规范化,而其他模型则不需要。 神经网络架构通常很健壮,可能不需要规范化。