当缺少“时间”方面时,如何微调模型并拆分数据集?

时间:2019-03-26 07:58:13

标签: dataset

  1. 在没有时间戳的情况下如何将数据集分为训练和测试?
  2. 对于缺少时间方面的数据集,k折交叉验证是否可能解决?
  3. 如果是,如何为我的机器学习模型分离用于超参数调整的验证集?我是否将验证集专用于超参数调整,然后确保在交叉验证步骤中不要使用它?
  4. 您能推荐我处理类似情况的可靠论文吗?

我有两个问题:

第一个问题是我有一个没有时间戳的数据集。许多人(例如http://www.win-vector.com/blog/2015/01/random-testtrain-split-is-not-always-enough/)建议不要将数据集随机分为训练和测试,而是要确保在训练集中的样本时间的将来观察到测试集中的样本。 k倍交叉验证是否是一种处理我在所有数据上一次测试我的模型的情况的方法?

第二个问题是我需要模型超参数调整的验证集。如果要走k折CV,那么知道k折CV使用所有数据样本进行测试时,确认集就不能用于测试,验证集就落在中间了。在启动CV之前,是否要分离一部分数据集以进行超参数调整,然后在不包括验证集的情况下执行CV?如果这样做,我将在测试后进行简历,而通常人们会在测试前进行简历。

是否存在处理类似情况的可信文件?他们做了什么?你能推荐我这些论文吗?

我非常感谢我对问题的回答。

0 个答案:

没有答案