假设我将数据拆分为训练集和验证集。我在训练集上执行了5次交叉验证,以获得模型的最佳超参数,然后我使用最优超参数来训练我的模型并将得到的模型应用于我的验证集。我的问题是,结合训练和验证集合是否合理,并使用从训练集中获得的超参数来构建最终模型?
答案 0 :(得分:3)
如果训练数据相对较小,这是合理的,并且添加验证集会使您的模型显着增强。但是,与此同时,添加新数据会使您之前选择的超参数可能不是最理想的(当您向训练集添加新数据时,很难显示应该应用哪种超参数转换)。因此,您可以平衡两件事 - 从更多数据中获得模型质量,以及由于难以预测超参数意义的变化而导致的可能损失。在某种程度上,您可以模拟此过程以确保它有意义,如果您在训练数据中有N个点并且在验证中有M,您可以尝试将训练进一步分成具有相同比例的块(因此现在是N *(N) /(N + M)和其他N *(M /(N + M))),在第一个上训练并检查最佳超参数是否(或多或少)转移到整个训练集上的最优参数 - 如果是这样,你可以安全地添加验证,因为它们也应该转移。如果他们不这样做 - 风险可能不值得获得。