在组内创建标记符合SAS​​中组内的两个条件

时间:2015-01-28 06:27:23

标签: sas

data abc;
length datec $19; 
input id $ param $ datec $ _flg $;
daten = input(datec,is8601dt.);
format daten is8601dt.;
cards;
001 ALT 2013-01-20T09:16 Y
001 AST 2013-01-20T09:16 Y
001 ALP 2013-01-20T09:16 Y
001 TSB 2013-01-21T09:14 Y
002 ALT 2013-02-20T08:16 N
002 AST 2013-02-20T08:16 Y
002 ALP 2013-02-20T08:16 Y
002 TSB 2013-02-21T08:14 Y
003 ALT 2013-01-20T09:16 Y
003 AST 2013-01-20T09:16 Y
003 ALP 2013-01-20T09:16 N
003 TSB 2013-01-21T09:14 N
004 ALT 2013-08-19T09:16 N
004 AST 2013-08-20T09:16 N
004 ALP 2013-08-20T09:16 Y
004 TSB 2013-08-20T11:14 Y
004 ALT 2013-08-21T09:00 Y
005 ALT 2013-08-19T11:16 Y
005 AST 2013-08-20T09:16 Y
005 ALP 2013-08-20T12:16 Y
005 TSB 2013-08-20T11:14 Y
006 ALT 2013-08-19T07:16 Y
006 ALT 2013-08-20T08:16 N
006 AST 2013-08-20T08:16 N
006 ALP 2013-08-20T08:14 Y
006 TSB 2013-08-20T08:16 Y
006 TSB 2013-08-20T08:14 Y
007 ALT 2013-08-19T10:16 Y
007 ALT 2013-08-20T08:16 N
007 AST 2013-08-20T08:16 N
007 ALP 2013-08-20T08:14 Y
007 TSB 2013-08-20T08:16 Y
007 TSB 2013-08-21T08:14 Y
;
run;

我需要的是制作符合以下条件的标志(_flg2)变量。 在id内ALT或AST应该_FLG为" Y" ALP和TSB必须_FLG为" Y"在24小时的窗口内。即在24小时内ALT / AST& ALP& TSB应该是" Y"。

最终数据集将包含每个id一个观察值。 _flg2变量将是" Y" id为(001,002,004,005,007),遗留ID为003,006。

请告诉我是否需要进一步澄清。

提前致谢!

我试过的代码如下:

proc sort data=abc out=_1;
    by id datec;
run;

data _2;
    set _1 (where=(_FLG = "Y"));
by id datec;
    if _FLG = "Y" then _flg1 = 1;
run;

proc transpose data=_2 out=_3(drop=_NAME_) ;
    by id datec daten;
    var _flg1;
    id param;
run;

data _4 (keep=id alt ast alp tsb daten dtchk dtdif);
    set _3;
    by id datec daten;
    dtdif=dif(daten)/3600;
    if first.id then dtdif=.;
if . lt dtdif lt 24 then dtchk=daten-dtdif*3600;
    format dtchk datetime.;
run;

data _5 (keep=id daten);
    set _4;
    where dtchk ne .;
    by id daten;
    if last.id;
run;

data _6;
    merge   _4(keep=id alt ast alp tsb daten)
            _4(keep=id alt ast alp tsb daten dtchk
            rename=(daten=refdt dtchk=daten alt=alt24 ast=ast24 alp=alp24     tsb=tsb24) where=(daten ne .))
            _5(in=ina);
    by id daten;
    if not ina;
    altf=max(of alt:);
    astf=max(of ast:);
    alpf=max(of alp:);
    tsbf=max(of tsb:);
    if . lt sum(altf, astf) le 2 and sum(alpf, tsbf) = 2 then _FLG2 = "Y";
run;

1 个答案:

答案 0 :(得分:1)

以下数据步骤应该有效:

data have;
  input @1 id $3. @5 param $3. @9 date yymmdd10. @20 time time5. @26 FLAG $1.;
  format datetime is8601dt. date yymmdd10. time time5.;
  datetime = dhms(date,hour(time),minute(time),0);
cards;
001 ALT 2013-01-20T09:16 Y
001 AST 2013-01-20T09:16 Y
001 ALP 2013-01-20T09:16 Y
001 TSB 2013-01-21T09:14 Y
002 ALT 2013-02-20T08:16 N
002 AST 2013-02-20T08:16 Y
002 ALP 2013-02-20T08:16 Y
002 TSB 2013-02-21T08:14 Y
003 ALT 2013-01-20T09:16 Y
003 AST 2013-01-20T09:16 Y
003 ALP 2013-01-20T09:16 N
003 TSB 2013-01-21T09:14 N
004 ALT 2013-08-19T09:16 N
004 AST 2013-08-20T09:16 N
004 ALP 2013-08-20T09:16 Y
004 TSB 2013-08-20T11:14 Y
004 ALT 2013-08-21T09:00 Y
005 ALT 2013-08-19T11:16 Y
005 AST 2013-08-20T09:16 Y
005 ALP 2013-08-20T12:16 Y
005 TSB 2013-08-20T11:14 Y
006 ALT 2013-08-19T07:16 Y
006 ALT 2013-08-20T08:16 N
006 AST 2013-08-20T08:16 N
006 ALP 2013-08-20T08:14 Y
006 TSB 2013-08-20T08:16 Y
006 TSB 2013-08-20T08:14 Y
007 ALT 2013-08-19T10:16 Y
007 ALT 2013-08-20T08:16 N
007 AST 2013-08-20T08:16 N
007 ALP 2013-08-20T08:14 Y
007 TSB 2013-08-20T08:16 Y
007 TSB 2013-08-21T08:14 Y
;
run;

proc sort data = have;
  by id date;
run;

data want;
  do until(last.id);
    set have(where = (FLAG = 'Y'));
    by id;
    select(param);
      when('ALT','AST') dt1 = datetime;
      when('ALP')       dt2 = datetime;
      when('TSB')       dt3 = datetime;
    end;
    if intck('dtmin',0,range(of dt1-dt3)) <= 24*60 and nmiss(of dt1-dt3) = 0 then FLAG2 = 'Y';
  end;
  call missing(of dt1-dt3);
  drop dt1-dt3;
run;

如果您的数据集按每个ID中的日期时间顺序排序,则只需要比较最近遇到的每个param值必须在同一个24小时窗口内的日期时间。这避免了很多关于转置,连接表的多个副本等等。