所以,这是怎么回事-我的泰坦尼克号数据集包含以下9列:
(i)存活(0/1)[2级],
(ii)Pclass(1/2/3)[3级],
(iii)性别(男/女)[2级],
(iv)年龄(连续变量),
(v)票价(连续变量),
(vi)出发(C / Q / S)[3级],
(vii)SibSp(连续变量),
(viii)Parch(连续变量)和
(ix)标题(Mr / MsMrs / Master / X)[4级]。
我正在尝试使用Survived
中的gbm
包从其他八个中预测R
,并且使用以下代码:
fit.gbm = gbm(Survived ~ Age + Fare + SibSp + Parch + Pclass + Titles + Sex + Embarked , data=train , distribution = "adaboost", n.trees=500 , interaction.depth=3 , shrinkage=0.005)
然后我用
predd.gbm = predict(fit.gbm , newdata=train , type="response" , n.trees=500)
我不明白我所得到的是什么,因为predd.gbm中的所有内容看起来都像0.99983,0.999974等。我如何理解我所得到的东西,以及如何从这个奇怪的predd中预测0/1。 gbm-“概率”,其中每个元素都接近1?
答案 0 :(得分:0)
Aaah,所以要做的方法是使用以下方法将(i)从因子更改为数字:
train$Survived = as.numeric(train$Survived)
randomForest
了解生存是一个因素,但gbm
并非如此!