我有一个包含连续变量和分类变量的数据集。最后,我想构建一个逻辑回归模型来计算响应二分变量的概率。
将对数线性模型应用于模型中的分类变量以测试它们的相互作用,然后使用指示的相互作用作为逻辑模型中的预测变量,是否可接受,甚至是个好主意?
R中的例子:
df中的列:CategoricalA,CategoricalB,CategoricalC,CategoricalD,CategoricalE,ContinuousA,ContinuousB,ResponseA
library(MASS)
#Isolate categorical variables in new data frame
catdf <- df[,c("CategoricalA","CategoricalB","CategoricalC", "CategoricalD", "CategoricalE")]
#Create cross table
crosstable <- table(catdf)
#build log-lin model
model <- loglm(formula = ~ CategoricalA * CategoricalB * CategoricalC * CategoricalD * CategoricalE, data = crosstable)
#Use step() to build better model
automodel <- step(object = model, direction = "backward")
然后使用automodel
的输出和ContinuousA和ContinuousB的值构建逻辑regresion,以预测ResponseA(二进制)。
我的预感是这不行,但我无法以某种方式找到答案。
答案 0 :(得分:0)
简短的回答:是的。您可以使用模型中的任何信息,这些信息将在模型的过时运行或“生产”运行中提供。此信息是否良好,强大,重要等是另一个问题。 逻辑是模型可以具有任何类型的RHS变量,包括分类,连续,逻辑等。此外,您可以组合RHS变量以创建一个RHS变量并应用转换。通过原始变量(恰好是分类变量)的线性变换组合,分类变量的对数线性模型什么都不是。这种方法不会违反任何特定的建模框架。