使用partykit

时间:2016-03-14 15:29:24

标签: r split tree party

此帖子遵循以下问题:https://stackoverflow.com/questions/31234329/rpart-user-defined-implementation

我对可以使用自定义标准处理树木生长的工具非常感兴趣,这样我就可以测试不同的模型。

我尝试使用partykit R包来生成一个树,其中分割规则由Cox模型的负对数似然给出(在Cox模型的情况下是对数拟似然)和Cox模型适合每片叶子。

据我所知,阅读有关MOB函数的插图,有两种方法可以实现我自己的分割标准,即使fit函数返回列表或模型对象。

出于我的目的,我尝试了两种解决方案,但我没能使它发挥作用。

解决方案1:返回一个列表对象:

我以“暴徒”小插图中的“乳腺癌数据集”为例。

我试过了:

cox1 = function(y,x, start = NULL, weights = NULL, offset = NULL, ...,
           estfun = FALSE, object = TRUE){
  res_cox = coxph(formula = y ~ x )
list(
  coefficients = res_cox$coefficients,
  objfun = - res_cox$loglik[2],
  object = res_cox)
}


mob(formula = Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade + progrec +
  estrec + menostat , 
    data = GBSG2 ,
    fit = cox1,
    control = mob_control(alpha = 0.0001) )

有一个关于X矩阵奇点的警告,并且mob使用单个节点运行一个树(即使alpha值较小)。

注意运行coxph函数时X矩阵没有奇点问题:

res_cox = coxph( formula = Surv(time, cens) ~ horTh + pnodes  ,
             data = GBSG2 )

解决方案2:返回coxph.object:

我试过了:

cox2 = function(y,x, start = NULL, weights = NULL, offset = NULL, ... ){
  res_cox = coxph(formula = y ~ x )
}

logLik.cox2 <- function(object, ...)
  structure( - object$loglik[2], class = "logLik")

mob(formula = Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade + progrec +
  estrec + menostat , 
    data = GBSG2 ,
    fit = cox2,
    control = mob_control(alpha = 0.0001 ) )

所以这次我沿着“progrec”变量得到了一个分裂:

Model-based recursive partitioning (cox2)

Model formula:
Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade + 
progrec + estrec + menostat

Fitted party:
[1] root
|   [2] progrec <= 21: n = 281
|         xhorThno  xhorThyes    xpnodes 
|       0.19306661         NA 0.07832756 
|   [3] progrec > 21: n = 405
|         xhorThno  xhorThyes    xpnodes 
|       0.64810352         NA 0.04482348 

Number of inner nodes:    1
Number of terminal nodes: 2
Number of parameters per node: 3
Objective function: 1531.132
Warning message:
In coxph(formula = y ~ x) : X matrix deemed to be singular; variable 2

我想知道我的解决方案1有什么问题。

我也为回归问题尝试了类似的事情,得到了相同的结果,以一片叶子结尾:

data("BostonHousing", package = "mlbench")

BostonHousing <- transform(BostonHousing,
                       chas = factor(chas, levels = 0:1, labels = c("no", "yes")),
                       rad = factor(rad, ordered = TRUE))


linear_reg = function(y,x, start = NULL, weights = NULL, offset = NULL, ...,
                  estfun = FALSE, object = TRUE){
  res_lm = glm(formula = y ~ x , family = "gaussian")
  list(
    coefficients = res_lm$coefficients,
    objfun = res_lm$deviance,
    object = res_lm )
}

mob( formula = medv ~ log(lstat) + I(rm^2) | zn + indus + chas + nox +
   + age + dis + rad + tax + crim + b + ptratio, 
     data = BostonHousing ,
     fit = linear_reg)

此外,我想知道使用变量“是否适合节点中的模型”和“进行拆分”是否没有问题。

提前谢谢。

我可能还有关于partykit功能的其他问题。

1 个答案:

答案 0 :(得分:4)

您设置的<tbody> <?php if ($numRows > 0) { while ($row = $resultSet->fetch_object()) { ?> <tr> <td><?php echo "{$row->name} " ?></td> <td><?php echo "{$row->address} " ?></td> <td><?php echo "{$row->county} " ?></td> </tr> <?php } } ?> </tbody> cox1()功能的问题在于您不提供估算功能,即分数贡献。由于这些是选择拆分变量的推理的基础,如果没有提供这些算法,算法根本不会拆分。有关此问题的一些讨论,请参见最近的answer

但对于linear_reg()个对象(与上面讨论的讨论中的coxph()示例不同),很容易获得这些估算函数或分数,因为有fitdistr()方法可用。因此,estfun()方法是更容易前往此处的途径。

后者无法正常工作的原因是cox2()中对拦截的特殊处理。在内部,这总是迫使截距进入模型,但是从设计矩阵中省略第一列。通过coxph()进行接口时,您需要注意不要弄乱它,因为mob()设置了自己的模型矩阵。由于您排除了拦截,mob()认为它可以估算mob()的两个级别。但情况并非如此,因为在Cox-PH模型中未发现截距。

此情况下的最佳解决方案(IMO)如下:您允许horTh设置拦截,但在将模型矩阵传递给mob()时再次将其排除。由于生成的对象有coxph()coef()logLik()方法,因此您可以使用estfun()函数的简单设置。

包裹和数据:

cox2()

拟合功能:

library("partykit")
library("survival")
data("GBSG2", package = "TH.data")

将MOB树拟合到cox <- function(y, x, start = NULL, weights = NULL, offset = NULL, ... ) { x <- x[, -1] coxph(formula = y ~ 0 + x) } 数据:

GBSG2