应用错误收集

我正在为SQUAD（斯坦福问答）数据集（https://rajpurkar.github.io/SQuAD-explorer）建立模型。斯坦福大学不会发布测试集。它仅为我们提供培训和开发数据集。

这是我的问题：

当我调整不同模型的超参数时，我根据斯坦福大学提供的“ dev”数据对其进行了调整。但是，由于无法访问真实的“测试”数据，因此将“开发”集视为“测试”集。根据“ dev”数据集的性能，我们只选择一种模型提交不同模型。

所以我想知道是否应该将训练集进一步分为train和dev，并在新分离的dev集（而不是斯坦福大学给出的dev集）上调整超参数，因为我们将“ dev”集设为“测试”集。我以某种方式作弊了吗？我是否需要从现有火车数据中创建另一个“开发”数据，将其进一步拆分，并在那里调整超参数，并检查给定“开发”集上的性能编号？

无法访问测试数据时进行超参数调整

2 个答案: