我有点混淆如何使用截止分数来提高我的预测模型的精确度。 这是一个数据样本:
我有一个数据集(矩阵),如下所示:
> data_test
1 2 3 4 5 6
KRT6B 0.807688 1.097187 -0.390313 0.644938 -0.187188 1.200688
CXCL1 0.255250 -0.134917 1.886083 0.433417 0.267583 0.996583
S100A8 -1.694800 0.012900 -0.314800 -0.368600 -0.750100 2.864700
S100A7 -0.417500 0.989000 -0.887000 -0.914500 -0.909000 4.485000
HORMAD1 -0.124750 -0.304083 -0.911050 5.426917 0.042250 6.490917
CLCA2 4.243417 0.032583 -1.750917 -1.551250 1.249917 1.494417
colnames是样本,rownames是Genes。
所以要找到一个截止点,我会通过将每列的表达式相加并将其分配给预测变量来为截止点生成分数:
predictor <- colSums(data_test)
> predictor
1 2 3 4 5 6
3.069305 1.692670 -2.367997 3.670922 -0.286538 17.532305
及其响应:
> response
[1] norm high norm low norm high
Levels: high norm low
我使用pROC包生成ROC曲线并找到优化截止值(使用youden index value / J statistic):
library(pROC)
rocobj <- roc(response,predictor)
cutpoint <- coords(rocobj,x='best',input='threshold',best.method = 'youden')
threshold specificity sensitivity
0.7030660 1.0000000 0.6666667
所以,现在我有了我的优化截止点,但我无法理解如何使用这种优化的截止值(一种分数!)来提高我的预测模型的精度。 在几篇论文中他们已经使用了这种方法,最后他们已经证明通过使用新的截止点已经改善了预测模型的相似性水平。我试着理解,但我在这里的股票因为我没有得到它! (我的意思是下一步!)。他们没有提到他们如何检查相似性或他们如何在我的案例中实施新的截止点以改进他们的方法。
有人能给我一个下一步的好解释吗?
提前致谢并对我的凌乱解释感到抱歉。