glm缺少值

时间:2017-04-30 20:02:38

标签: r glm

我正在创建一个带有二元响应的模型(购买与不购买),我有一些应该预测响应的变量,有些变量有不同的级别,有些只是数字。所以我进行了多重逻辑回归。我现在使用的代码是:

Data.omit = na.omit(Data)
model.null = glm(aankoop ~ 1, data=Data.omit,family =binomial(link="logit"))
model.full = glm(aankoop ~.,data=Data.omit,family = binomial(link="logit"))
step(model.null,scope = list(upper=model.full),direction="both",test="Chisq",data=Data)
model.final = glm(aankoop ~ duration + number_of_pages + recentvisits +householdtypology_gfk + device + os + engine + browser + medium,data=tabelx3,family = binomial(link="logit"),na.action(na.pass))
summary(model.final)

我对此有一些疑问。由于一个变量,我的数据有很多缺失值。如果由于一个变量而删除具有缺失值的所有行将会很遗憾,许多信息将丢失。

如果我查看代码,model.final没有使用数据集Data.omit,那么这是否意味着这包括所有缺少值的行?我尝试使用na.action(na.pass),但我发现如果我使用na.action(na.omit),结果是一样的,那有什么区别?

是否有可能根据NA值的所有行创建模型?一个细节是具有许多缺失值的变量具有NA,这意味着用户未被注册。只有当它不是NA时,才意味着用户已注册并填写了此信息。所以变量实际上有一个含义,如果它是NA。如果这些值(对于非注册用户)是由注册用户的值预测的,我认为这是错误的。

0 个答案:

没有答案