插入包中列车的中间分析

时间:2015-10-28 17:10:41

标签: r r-caret

我正在尝试使用R包short.train.ctrl = trainControl(method = "repeatedcv",repeats=2,number=5) grid <- expand.grid(shrinkage=c(0.1), n.trees=c(500),n.minobsinnode=c(1000),interaction.depth = c(7,8,9,10)) caret.train = train(target ~.,data = data[,filter], method = "gbm",distribution="adaboost", tuneGrid = grid, metric = "accuracy", trControl =short.train.ctrl ) 训练模型。我的数据集相当大(600 K行),这一切都需要很长时间。

到目前为止,我使用下面的代码。我做了重复cv(这是火车的意思),但只有2次重复和5次cv加速全部。对于网格,我只采用了一小组值。 然而,它需要数小时和数小时。到目前为止是否有可能中断对结果的训练并继续?

Swift 2.1

1 个答案:

答案 0 :(得分:3)

简短回答:不。

稍长一些:插入符号没有中断。程序应该如何知道停止的位置/时间?

您正在进行5次重复5次,+对500棵树进行网格搜索,采样量为600K记录。这需要很长时间。

尝试并行运行所有内容。这应该可以加快速度。当然,您可能会遇到计算机上的内存问题。但是我首先运行没有cv(WHERE (CASE WHEN @box = 1 AND (CheckReg.CheckDate BETWEEN @ChkStartDate and @ChkEndDate OR CheckReg.CheckDate IS NULL) THEN 1 WHEN @box = 0 AND (CheckReg.CheckDate BETWEEN @ChkStartDate and @ChkEndDate OR CheckReg.CheckDate IS NULL AND NOT CheckReg.CheckDate IS NULL AND CheckReg.CheckDate IS NOT NULL) THEN 1 ELSE 0 END ) = 1 )的gbm来感受运行一次并从那里开始所需的时间。