我在具有二进制结果的数据集上运行randomForest,并希望预测的概率(在同一数据集上-我不需要为此进行单独的训练/测试)。我期望下面的p1和p2的值相同,但显然不一样。我还没有找到关于它们之间的区别的清晰描述。任何帮助将不胜感激。
mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv")
rf = randomForest(factor(admit)~., data = mydata)
p1 = predict(rf, mydata[,c(2:4)], type = "prob")
p2 <- rf$votes
> head(p1)
0 1
1 0.926 0.074
2 0.584 0.416
3 0.166 0.834
4 0.722 0.278
5 0.968 0.032
6 0.258 0.742
> head(p2)
0 1
1 0.8324324 0.16756757
2 0.7663043 0.23369565
3 0.2447917 0.75520833
4 0.9695431 0.03045685
5 0.9264706 0.07352941
6 0.3351351 0.66486486