我最近一直在使用mboost
来获取大量自变量并识别有用的预测变量。例如:
library(mboost)
xx=glmboost(data=mtcars,mpg~.)
据我所知,该算法分别处理每个因变量,并尝试通过梯度过程识别重要的预测变量。
但也许有一些复杂的互动。可能cyl
对mpg
的影响与wt
增加相比不那么重要。这可能具有直观意义。一辆12缸的小型车是某种跑车,而那时低效mpg的驱动器是缸。但对于一辆卡车而言,它的重量确实是低mpg的驱动力。
在使用mboost或其他提升算法时,如何处理变量的(可能是非线性的)交互效应?
我不想走向无法解释的NN或森林模型。有没有更好的方法来处理这个?
我非常喜欢这种提升方法 - 关于它的论文是可读的,结果似乎对普通人来说是可以理解的。但是,当你进行互动时,你似乎会得到一个不太完美的契合。
谢谢,乔希
答案 0 :(得分:1)
告诉公式如何考虑所有双向交互:
while read p; do
VALUE=$(echo $p | awk '{print $2}')
done < parameters.txt