我碰巧发现了以下使我困惑几个小时的问题。
data test;
input RandNo$ Trt$ Tmax;
cards;
K64 R 0.5
K64 T 0.15
K64 R 0.15
K64 T 0.5
K65 T 0.5
K65 R 0.33
K65 T 0.17
K65 R 0.5
;
run;
proc sql noprint;
create table SQL as
select RandNo, TRT, avg(Tmax) as Tmax_Mean
from test
group by RandNo, TRT
;
quit;
ods output Summary = Means;
proc means data = test n mean;
class RandNo TRT;
var Tmax;
run;
ods output;
proc sql;
select a.RandNo, a.TRT, a.Tmax_Mean as SQL,
b.Tmax_Mean as Means,
SQL - Means as Dif
from SQL as a
left join Means as b
on a.RandNo = b.RandNo and a.TRT = b.TRT
;
quit;
输出:
RandNo Trt SQL Mean Dif
K64 R 0.325 0.325 0
K64 T 0.325 0.325 -555E-19
K65 R 0.415 0.415 0
K65 T 0.335 0.335 -555E-19
那么为什么proc平均值和proc sql的结果彼此不同呢?提前谢谢。
PS:我试图删除对“ K64”或“ K65”的观测,但这次差异只是消失了。
答案 0 :(得分:1)
标准过程(均值,单变量,汇总等)下的统计引擎是相同的,但是,您发现的SQL统计引擎与Procs引擎的变化很小。
关于为什么对SAS开发人员来说还有一个问题。一种可能性是,SQL引擎可能会从SQL ISO NULL与SAS MISSING值(.
至.Z
)的处理或表示中获得额外的可用位,这反过来可能会影响结果。
您可以使用RB8查看双精度表示形式的基础位。
put(SQL,RB8.) format=$hex16. as SQL_RB8,
put(Means,RB8.) format=$hex16. as Means_RB8
RandNo Trt SQL Mean Dif SQL_RB8 Means_RB8.
--------------------------------------------------------------------------------------------
K64 R 0.325 0.325 0 CDCCCCCCCCCCD43F CDCCCCCCCCCCD43F
K64 T 0.325 0.325 -555E-19 CCCCCCCCCCCCD43F CDCCCCCCCCCCD43F
K65 R 0.415 0.415 0 90C2F5285C8FDA3F 90C2F5285C8FDA3F
K65 T 0.335 0.335 -555E-19 703D0AD7A370D53F 713D0AD7A370D53F
当有微小差异时,您会看到
CC...
和CD...
代表.325 70...
和71...
代表.335 差异是非常低的一位。如果您想了解更多有关在双精度空间中存储十进制值的细节,请查阅IEEE 754。
答案 1 :(得分:0)
我猜测默认情况下,一个过程会应用模糊测试,而另一个过程则不会。除了“传统原因”之外,很难确切地说出原因。