Question

我有一个包含连续变量和分类变量的数据集。最后，我想构建一个逻辑回归模型来计算响应二分变量的概率。

将对数线性模型应用于模型中的分类变量以测试它们的相互作用，然后使用指示的相互作用作为逻辑模型中的预测变量，是否可接受，甚至是个好主意？

R中的例子：

df中的列：CategoricalA，CategoricalB，CategoricalC，CategoricalD，CategoricalE，ContinuousA，ContinuousB，ResponseA

library(MASS)

#Isolate categorical variables in new data frame
catdf <- df[,c("CategoricalA","CategoricalB","CategoricalC", "CategoricalD", "CategoricalE")]

#Create cross table
crosstable <- table(catdf)

#build log-lin model
model <- loglm(formula = ~ CategoricalA * CategoricalB * CategoricalC * CategoricalD * CategoricalE, data = crosstable)

#Use step() to build better model
automodel <- step(object = model, direction = "backward")

然后使用automodel的输出和ContinuousA和ContinuousB的值构建逻辑regresion，以预测ResponseA（二进制）。

我的预感是这不行，但我无法以某种方式找到答案。

Answer 1

简短的回答：是的。您可以使用模型中的任何信息，这些信息将在模型的过时运行或“生产”运行中提供。此信息是否良好，强大，重要等是另一个问题。逻辑是模型可以具有任何类型的RHS变量，包括分类，连续，逻辑等。此外，您可以组合RHS变量以创建一个RHS变量并应用转换。通过原始变量（恰好是分类变量）的线性变换组合，分类变量的对数线性模型什么都不是。这种方法不会违反任何特定的建模框架。

可以/我应该使用对数线性模型的输出作为逻辑回归模型中的预测变量吗？

1 个答案: