我有一个带有“ X
”样本的数据集“ n
”,该数据集用于训练套索回归模型。
数据集中有“ p
个预测变量,LassoCV在最终训练模型中从中选择了“ k
”个预测变量。我将使用此模型进行预测。
我想知道该模型所做的预测的置信区间。
假设“ y
”是我的数据的真实标签,“ y^
”是我的模型的预测值,并且 90%感兴趣,则使用以下公式:
conf_int = 1.645 * (np.sqrt(sum((y - y^)**2)/(n - k - 2)))
我想知道这个公式是否正确。如果没有,请为我提供一些链接或教程。
提前感谢您的意见和评论