我试图理解R中包rms
的一些输出,其中我在分位数回归中使用受限三次样条。理解输出的问题可能与限制三次样条有关,而不是我在分位数回归中使用它们的事实。我拟合一个受限制的三次样条函数, k = 3节,如下所示:
fitted.model <- Rq(y ~ rcs(x, 3), x=TRUE, y=TRUE, tau=0.50, data=d)
我对此事感到困惑
coef(fitted.model)
所示:
Intercept x x'
39.67901296 0.31760226 0.01875437
,而
Function(fitted.model)
所示:
function(x = 56.15) {39.679013+0.31760226* x+1.2554621e-05*pmax(x-38.45,0)^3-2.3161627e-05*pmax(x-56.15,0)^3+1.0607006e-05*pmax(x-77.1,0)^3 }
考虑到RMS书中的公式2.24和2.25,我预计系数β 0 ,β 1 和β 2 (即β< sub> k-1 )获得coef(fitted.model)
将是用Formula(fitted.model)
显示的前三个(即k-1)系数。截距(β 0 )和X(β 1 )的系数明显相同,但公式中显示的β 2 不是与coef(fitted.model)
的第二个系数相同。我误解了什么?
答案 0 :(得分:4)
Function
和coef
报告的系数因规范化而彼此不同。我无法在回归建模策略书中找到任何关于规范化(或其利弊)的描述,这本书就是我所阅读的。但是,在Frank Harrell的rcspline.eval
包中名为Hmisc
的函数的文档中简要描述了规范化,其中norm
参数解释如下:
规范:0使用Devlin和Weeks最初给出的条款 (1986),1通过间距的立方来标准化非线性项 在最后两个结之间,2由正方形归一化 第一个和最后一个结之间的间距(默认值)。 norm = 2有 使所有非线性项都在x尺度上的优势。
因此,在我在我的问题中使用的例子中,两个系数 1.2554621×10 -5 和 0.01875437 与乘法相关因子(77.1-38.45) 2 = 38.65 2 = 1493.82 ,即示例中第一个和最后一个节点之差的平方
归一化的最终效果是通过归一化因子来改变构造的样条变量的回归β权重,而不是截距或未变化的x变量。正如Harrell解释的那样,它使权重(系数)在x的范围内更容易解释。