我使用gbm(..., data = traindata, ...)
训练模型并使用predict(... newdata = newdata, ...)
进行预测。
我的问题:traindata和newdata需要具有相同的格式(变量的顺序和数量)吗?
在gbm手册中,以下内容是针对predict()编写的:
如果对象适合使用gbm.fit,则不会有Terms组件。 因此,用户有更大的责任来确保这一点 newdata具有相同的格式(顺序和变量数) 一个最初用来适应模型的。
这对gbm或仅对gbm.fit也是如此吗? newdata可以使用与traindata不同的格式吗?
由于
答案 0 :(得分:0)
假设你的数据的维数为M N(M个样本数和N个变量数),那么你的预测集必须有K N表示样本数不是重要但变量的数量是。希望它有所帮助
答案 1 :(得分:0)
谢谢,但预测集中的N个变量需要与训练集(gbm)中的顺序相同吗?
此外,与训练集相比,预测集可以有其他变量吗?在预测中显然应忽略这些参数。
我的问题是gbm()和predict()是否识别变量的标签。如果是这样,预测集中变量和附加变量的顺序应该对预测没有影响。
由于