我正在研究威斯康星州乳腺癌数据集,我的目标是建立一个具有良好准确性和100%敏感性的模型。我知道,要实现这一目标,我必须使用阈值。问题是我不了解阈值如何工作以及如何正确选择阈值。
我正在研究著名的SL入门(带有R中的应用程序)书,但在第4章中找不到关于选择阈值的说明。
这是我到目前为止编写的代码:
df <- subset(df, select = -c(X, id)) # Selecting features
set.seed(4)
# Train and test
nrows <- NROW(df)
index <- sample(1:nrows, 0.7 * nrows)
traindf <- df[index,]
testdf <- df[-index,]
glm.fit=glm(diagnosis~., data=traindf ,family=binomial)
glm.probs=predict(glm.fit,testdf,type="response")
glm.pred=rep("B",dim(tested)[1])
glm.pred[glm.probs >.5]="M"
table(glm.pred, testdf[,1])
现在,这给了我
glm.pred B M
B 108 3
M 4 56
我想要在表的右上角放置0,但是更改阈值不起作用。
如何解决此问题?
lad函数也是如此(我在这里避免写)。
谢谢