如何使用“ gbm”中的“ adaboost”分布进行有意义的预测?

时间:2019-01-18 22:38:55

标签: r gbm adaboost

所以,这是怎么回事-我的泰坦尼克号数据集包含以下9列:

  

(i)存活(0/1)[2级],

     

(ii)Pclass(1/2/3)[3级],

     

(iii)性别(男/女)[2级],

     

(iv)年龄(连续变量),

     

(v)票价(连续变量),

     

(vi)出发(C / Q / S)[3级],

     

(vii)SibSp(连续变量),

     

(viii)Parch(连续变量)和

     

(ix)标题(Mr / MsMrs / Master / X)[4级]。

我正在尝试使用Survived中的gbm包从其他八个中预测R,并且使用以下代码:

fit.gbm = gbm(Survived ~ Age + Fare + SibSp + Parch + Pclass + Titles + Sex + Embarked , data=train , distribution = "adaboost", n.trees=500 , interaction.depth=3 , shrinkage=0.005)

然后我用

predd.gbm = predict(fit.gbm , newdata=train , type="response" , n.trees=500)    

我不明白我所得到的是什么,因为predd.gbm中的所有内容看起来都像0.99983,0.999974等。我如何理解我所得到的东西,以及如何从这个奇怪的predd中预测0/1。 gbm-“概率”,其中每个元素都接近1?

1 个答案:

答案 0 :(得分:0)

Aaah,所以要做的方法是使用以下方法将(i)从因子更改为数字:

train$Survived = as.numeric(train$Survived)

randomForest了解生存是一个因素,但gbm并非如此!