对于时间序列数据集,我想做一些分析并创建预测模型。通常,我们会将数据(通过整个数据集中的随机抽样)分成训练集和测试集,并使用带有randomForest函数的训练集。并保持测试部分检查模型的行为。
但是,有人告诉我,不可能通过随机抽样来分割数据。
如果有人解释如何将数据拆分为培训和测试时间序列数据,我将不胜感激。或者,如果有任何替代做时间序列随机森林。 此致
答案 0 :(得分:0)
Sales<-read.csv("Sales.csv")
寻找训练集的长度。
train_len=round(nrow(Sales)*0.8)
test_len=nrow(Sales)
将您的数据拆分为训练和测试集我在这里考虑过80-20分裂你可以改变它。确保您的数据按升序排序。
训练集
training<-slice(SubSales,1:train_len)
测试集
testing<-slice(SubSales,train_len+1:test_len)