应用错误收集

时间：2016-02-12 14:43:36

标签： r

我使用gbm(..., data = traindata, ...)训练模型并使用predict(... newdata = newdata, ...)进行预测。

我的问题：traindata和newdata需要具有相同的格式（变量的顺序和数量）吗？

在gbm手册中，以下内容是针对predict（）编写的：

如果对象适合使用gbm.fit，则不会有Terms组件。因此，用户有更大的责任来确保这一点 newdata具有相同的格式（顺序和变量数）一个最初用来适应模型的。

这对gbm或仅对gbm.fit也是如此吗？ newdata可以使用与traindata不同的格式吗？

由于

答案 0 :(得分：0)

假设你的数据的维数为M N（M个样本数和N个变量数），那么你的预测集必须有K N表示样本数不是重要但变量的数量是。希望它有所帮助

答案 1 :(得分：0)

谢谢，但预测集中的N个变量需要与训练集（gbm）中的顺序相同吗？

此外，与训练集相比，预测集可以有其他变量吗？在预测中显然应忽略这些参数。

我的问题是gbm（）和predict（）是否识别变量的标签。如果是这样，预测集中变量和附加变量的顺序应该对预测没有影响。

由于