SAS企业指南中的0 DF回归

时间:2019-05-15 20:06:44

标签: sas regression

我在SAS中创建了虚拟变量(以下代码的一部分),并进行了回归(丢弃了M23)。运行正常。但是后来由于我们没有足够的成员,我尝试按年龄分组。我以相同的方式运行,并扔掉了一个年龄段(M20to24,因为该年龄段的成员人数最高)。现在我的一些变量具有0 DF。有人知道出了什么问题吗? 我收到了消息-注意:模型不是完整等级。参数的最小二乘解不是唯一的。一些统计数据将产生误导。报告的DF为0或B表示估计有偏差。由于变量是如图所示的其他变量的线性组合,因此以下参数已设置为0。

  data  Table;
set Table;
M0=(AgeGender = '0M');
M1=(AgeGender = '1M');
M2=(AgeGender = '2M');
M3=(AgeGender = '3M');
M4=(AgeGender = '4M');
M5to9=(AgeGender = ' 5to9M');
M10to14=(AgeGender = '10to14M');
M15to19=(AgeGender = '15to19M');
M20to24=(AgeGender = '20to24M');
M25to29=(AgeGender = '25to29M');
M30to34=(AgeGender = '30to34M');
M35to39=(AgeGender = '35to39M');
M40to44=(AgeGender = '40to44M');
M45to49=(AgeGender = '45to49M');
M50to54=(AgeGender = '50to54M');
M55to59=(AgeGender = '55to59M');
M60to64=(AgeGender = '60to64M');
M65Plus=(AgeGender = '65+M');
F0=(AgeGender = '0F');
F1=(AgeGender = '1F');
F2=(AgeGender = '2F');
F3=(AgeGender = '3F');
F4=(AgeGender = '4F');
F5to9=(AgeGender = ' 5to9F');
F10to14=(AgeGender = '10to14F');
F15to19=(AgeGender = '15to19F');
F20to24=(AgeGender = '20to24F');
F25to29=(AgeGender = '25to29F');
F30to34=(AgeGender = '30to34F');
F35to39=(AgeGender = '35to39F');
F40to44=(AgeGender = '40to44F');
F45to49=(AgeGender = '45to49F');
F50to54=(AgeGender = '50to54F');
F55to59=(AgeGender = '55to59F');
F60to64=(AgeGender = '60to64F');
F65Plus=(AgeGender = '65+F');
Dep = (Relationship = 'Dep');
Mandatory = (Mand_Vo = 'Mandatory');
run;

ods output ParameterEstimates=Parameter_Estimates; 
proc reg data= Table;
model logPMPM = 
M0
M1
M2
M3
M4
M5to9
M10to14
M15to19

M25to29
M30to34
M35to39
M40to44
M45to49
M50to54
M55to59
M60to64
M65Plus
F0
F1
F2
F3
F4
F5to9
F10to14
F15to19
F20to24
F25to29
F30to34
F35to39
F40to44
F45to49
F50to54
F55to59
F60to64
F65Plus;
weight Membership;
run; 
ods output close; 

1 个答案:

答案 0 :(得分:0)

看起来没有重叠或相同的互补数据变量,但这是根据定义。您的数据很可能是偶然发生的,这很难找到。您可以通过交叉怀疑可能相关的变量或进行成对散点图(PROC SGSCATTER)并查看其中两个重叠几乎相同来发现它。

您是正确的,您不会使用连续值获得此行为,因为它们是连续的并且不太可能完全重叠。通常,将变量保持连续是不对变量进行分类/分类的最佳实践。界限是人为的,34岁真的不同于36岁吗?如果该年龄段的所有人都是34岁,而35至39岁年龄段的36岁呢?您可能没有发现任何不同,但是如果您的分布是39岁的所有人与31岁的所有人,那么您可能会发现更多的不同。保持数据连续可避免这些制造问题。