现在我正试图用几个外在变量来制作一些预测变量。
我想问你的方法是否错误。
我有一个分数(这里是Y)和4个特征(X1,X2,X3和X4),有100个观察值。
现在我使用Pearson相关系数和线性回归(beta)分别研究了Y和X1,X2,X3和X4之间的关系。
使用这种关系,我通过加权和得出了一些Y的预测值。
我制作了逐步线性回归模型并使用了权重(它显示了增加的相关系数和β)。
由于缺乏我的知识,我想知道它是否是有效的方法并获得一些提示(当X有不同单位时的其他方法)。
谢谢。
KHW。
感谢您的建议。
实际上,我知道测量X可能在Y之间具有线性关系。我的方法是单独研究Pearson的corrleation系数和X1,X2,X3和X4的回归β。我发现了特征和Y之间的线性关系,但我希望通过组合这些特征来提高可预测性(r和beta)。因此我做了Y'= B(0)+ B(1)* X1 + B(2)* X2 + ... + B(4)* X4,其中Y'是估计的Y而B(0)是截距。
首先,我使用逐步线性回归得到Y'= B(0)+ B(1)* X1 + B(4)* X4。
其次,我使用多元线性回归得到Y'= B(0)+ B(1)* X1 + B(2)* X2 + ... + B(4)* X4。
它们非常适合,但我担心我实际上想要说这些特征可以预测Y,但是使用回归选择系数需要Y,这意味着它不是预测器。
k折叠交叉验证是否可以作为验证方法?
谢谢