SAS-在同一数据集的不同ID变量中逐行比较并删除所有重复项

时间:2019-07-23 20:43:42

标签: sas datastep

在尝试对不同ID变量组内的行进行比较时,我需要一些帮助,所有这些都在单个数据集中。

也就是说,如果两个或多个ID组中有任何个重复的观察,那么我想完全删除该观察。

我想确定不同组的行之间的重复项,并完全删除

例如:

ID  Value
 1    A
 1    B
 1    C
 1    D
 1    D
 2    A
 2    C
 3    A
 3    Z
 3    B

我想要的输出是:

ID  Value
 1    D
 3    Z

我已经在网上广泛浏览,并尝试了一些方法。我以为可以用标记标记重复项,然后根据该标记删除。

标记代码为:

data have;
set want;
flag = first.ID ne last.ID;
run;

这在某些情况下可行,但在相同值组中,我也有重复的标记。

因此,第一个观察结果被删除:

ID  Value
 3    Z

我也尝试过:

data have;
set want;
flag = first.ID ne last.ID and first.value ne last.value;
run;

但这根本没有标记任何重复项。

我将不胜感激。 请让我知道是否需要其他信息。

谢谢。

5 个答案:

答案 0 :(得分:4)

这是一种相当简单的方法:按值+ ID进行排序和重复数据删除,然后仅保留具有仅针对单个ID出现的值的行。

data have;
input ID  Value $;
cards;
 1    A
 1    B
 1    C
 1    D
 1    D
 2    A
 2    C
 3    A
 3    Z
 3    B
 ;
run;

proc sort data = have nodupkey;
    by value ID;
run;

data want;
set have;
by value;
if first.value and last.value;
run;

proc sql版本:

proc sql;
create table want as
select distinct ID, value from have
group by value
having count(distinct id) =1
order by id
;
quit;

答案 1 :(得分:3)

这是我对要求的解释。 查找仅包含1个ID的价值水平。

data have;
   input ID  Value:$1.;
   cards;
 1    A
 1    B
 1    C
 1    D
 1    D
 2    A
 2    C
 3    A
 3    Z
 3    B
;;;;
proc print;
proc summary nway; /*Dedup*/
   class id value;
   output out=dedup(drop=_type_ rename=(_freq_=occr));
   run;
proc print;
   run;
proc summary nway;
   class value;
   output out=want(drop=_type_)  idgroup(out[1](id)=) sum(occr)=;
   run;
proc print;
   where _freq_ eq 1;
   run;
proc print;
   run;

enter image description here

答案 2 :(得分:3)

稍微不同的方法可以使用哈希对象来跟踪属于单个组的唯一值。

data have; input
ID  Value:& $1.; datalines;
 1    A
 1    B
 1    C
 1    D
 1    D
 2    A
 2    C
 3    A
 3    Z
 3    B
run;

proc delete data=want;

proc ds2;
  data _null_;
    declare package hash values();
    declare package hash discards();
    declare double idhave;

    method init();
      values.keys([value]);
      values.data([value ID]);
      values.defineDone();

      discards.keys([value]);
      discards.defineDone();
    end;

    method run();
      set have;

      if discards.find() ne 0 then do;
        idhave = id;
        if values.find() eq 0 and id ne idhave then do;
          values.remove();
          discards.add();
        end;
        else
          values.add();
      end;
    end;

    method term();
      values.output('want');
    end;
  enddata;
  run;
quit;

%let syslast = want;

答案 3 :(得分:2)

我认为您应该做的是

data want;
  set have;
  by ID value;   
  if not first.value then flag = 1;
  else flag = 0;
run;

这基本上标记了一个值的所有出现,除了给定ID的第一个值。

我也改变了需求,并假设您从want中创建了have。另外,我假设have按ID值顺序排序。

这也只会在上面的1 D处标记。不是3 Z

其他输入

您能不能做一个摆脱重复的事情?

proc sort data = have out = want nodupkey dupout = not_wanted;
  by ID value;
run;

答案 4 :(得分:0)

因此,如果您按VALUE级别(而不是ID级别)处理观察值,则只需要跟踪是否有任何ID与第一个ID有所不同即可。

data want ;
  do until (last.value);
    set have ;
    by value ;
    if first.value then first_id=id;
    else if id ne first_id then remapped=1;
  end;
  if not remapped;
  keep value id;
run;