我正在尝试使用R包short.train.ctrl = trainControl(method = "repeatedcv",repeats=2,number=5)
grid <- expand.grid(shrinkage=c(0.1), n.trees=c(500),n.minobsinnode=c(1000),interaction.depth = c(7,8,9,10))
caret.train = train(target ~.,data = data[,filter],
method = "gbm",distribution="adaboost",
tuneGrid = grid,
metric = "accuracy",
trControl =short.train.ctrl
)
训练模型。我的数据集相当大(600 K行),这一切都需要很长时间。
到目前为止,我使用下面的代码。我做了重复cv(这是火车的意思),但只有2次重复和5次cv加速全部。对于网格,我只采用了一小组值。 然而,它需要数小时和数小时。到目前为止是否有可能中断对结果的训练并继续?
Swift 2.1
答案 0 :(得分:3)
简短回答:不。
稍长一些:插入符号没有中断。程序应该如何知道停止的位置/时间?
您正在进行5次重复5次,+对500棵树进行网格搜索,采样量为600K记录。这需要很长时间。
尝试并行运行所有内容。这应该可以加快速度。当然,您可能会遇到计算机上的内存问题。但是我首先运行没有cv(WHERE
(CASE
WHEN @box = 1 AND (CheckReg.CheckDate BETWEEN @ChkStartDate and @ChkEndDate OR CheckReg.CheckDate IS NULL)
THEN 1
WHEN @box = 0 AND (CheckReg.CheckDate BETWEEN @ChkStartDate and @ChkEndDate OR CheckReg.CheckDate IS NULL
AND NOT CheckReg.CheckDate IS NULL AND CheckReg.CheckDate IS NOT NULL)
THEN 1
ELSE 0
END
) = 1
)的gbm来感受运行一次并从那里开始所需的时间。