线性回归:使用SAS查找重要的类变量

时间:2018-11-09 12:37:27

标签: sas regression linear-regression p-value

我正在尝试使用SAS来做一个非常基本的回归问题,但是我很难获得全部结果。

我正在使用一个数据集,该数据集包括教授的整体素质(因变量),并具有以下自变量:性别,年份,辣椒,学科,易用性和rateInterest。

我正在使用下面的代码来生成数据集的分析:

proc glm data=WORK.IMPORT;
    class gender pepper discipline;
    model quality = gender numYears pepper discipline easiness raterInterest;
run;

我得到以下结果,这基本上是我所需要的,除了我想确切地看到来自类变量(性别,胡椒,学科)的哪些响应是重要的。 The GLM Procedure

The GLM Procedure

从这些结果中,我可以看到容易程度,rateInterest,胡椒和纪律性是重要的;但是,我想看看胡椒和纪律哪个特定的值很重要。例如,胡椒被学生回答为“是”或“否”。我想看看质量是否与胡椒粉或胡椒粉特别相关。谁能给我一些有关如何更改代码以返回类变量细分的建议?

如果需要引用,这里也是数据集的链接: https://drive.google.com/file/d/1Kc9cb_n-l7qwWRNfzXtZi5OsiY-gsYZC/view?usp=sharing Rateprof

我真的非常感谢您的协助!

1 个答案:

答案 0 :(得分:2)

在您的solution语句中添加model选项,以细分每个类变量的统计信息;但是,参考参数化在proc glm中不可用,并且会导致估计偏差。可以通过多种方法继续使用proc glm,但是最简单的解决方案是使用proc glmselectproc glmselect允许您指定参考参数化。使用selection=none选项可以禁用变量选择。

proc glmselect data=WORK.IMPORT;
    class gender(ref='female') pepper discipline / param=reference;
    model quality = gender numYears pepper discipline easiness raterInterest / selection=none;
run;

enter image description here

对此的解释是:

  

所有其他变量保持不变,雌性通过   与男性相比-0.046782单位。此变量没有统计学意义。

每个等级的细目分类是与参考值的比较。默认情况下,选择的参考值是内部对所有类值进行排序后的最后一个级别。您可以在每个类变量之后使用ref=选项来指定引用。例如,如果要使用女性而不是男性作为参考值:

proc glmselect data=WORK.IMPORT;
    class gender(ref='female') pepper discipline;
    model quality = gender numYears pepper discipline easiness raterInterest / selection=none;
run;

请注意,您也可以使用prox mixed执行此操作。为此,首选项取决于您喜欢的输出样式。 proc mixed是运行回归的一种更灵活的方法,但在这里可能会显得有些过大。

proc mixed data=import;
    class gender pepper discipline;
    model quality = gender numYears pepper discipline easiness raterInterest / solution;
run;
相关问题