我有两个问题:
第一个问题是我有一个没有时间戳的数据集。许多人(例如http://www.win-vector.com/blog/2015/01/random-testtrain-split-is-not-always-enough/)建议不要将数据集随机分为训练和测试,而是要确保在训练集中的样本时间的将来观察到测试集中的样本。 k倍交叉验证是否是一种处理我在所有数据上一次测试我的模型的情况的方法?
第二个问题是我需要模型超参数调整的验证集。如果要走k折CV,那么知道k折CV使用所有数据样本进行测试时,确认集就不能用于测试,验证集就落在中间了。在启动CV之前,是否要分离一部分数据集以进行超参数调整,然后在不包括验证集的情况下执行CV?如果这样做,我将在测试后进行简历,而通常人们会在测试前进行简历。
是否存在处理类似情况的可信文件?他们做了什么?你能推荐我这些论文吗?
我非常感谢我对问题的回答。