Question

这在（PROC）SQL中非常简单，但是考虑使用数据步骤，并且我发现严重缺乏关于该主题的文档。

大多数多数据集合并具有在BY语句中使用的相同键。

Answer 1

从技术上讲，即使使用merge语句也可以这样做，这可能会让大多数人感到惊讶。有时你甚至可以得到你期望的数据。

这可以按预期工作：

proc means data=sashelp.class;
  class age;
  types age;
  var height;
  output out=mean_height_age mean= /autoname;
run;

proc means data=sashelp.class;
  class age sex;
  types age*sex;
  var weight;
  output out=mean_weight_sex mean= /autoname;
run;

proc sort data=sashelp.class out=class;
  by age sex;
run;


data class_means;
  merge class mean_height_age;
  by age;
  merge class mean_weight_sex;
  by age sex;
run;

这些工作是因为订单不一致（第二个by与第一个by兼容）。

但是，如果你更多地考虑关系数据库那种你有完全独立的合并键的东西，那么就可以欺骗SAS做一些似乎有效的事情，但事实并非如此。请注意，最终数据集在年龄变化时似乎有点混淆 - 这是因为class_index的第二个合并语句中的传入行覆盖了第一组记录，并且以不同的顺序排列（每个索引）。

proc means data=sashelp.class;
  class age;
  types age;
  var height;
  output out=mean_height_age mean= /autoname;
run;

proc means data=sashelp.class;
  class sex;
  types sex;
  var weight;
  output out=mean_weight_sex mean= /autoname;
run;

data class_index(index=(sex) index=(age));
  set class;
run;


data class_means;
  merge class_index mean_height_age;
  by age;
  merge class_index mean_weight_sex;
  by sex;
run;

您可以通过重新设置class_index数据集来清楚地看到这一点。

data class_means;
  merge class_index mean_height_age;
  by age;
  merge class_index mean_weight_sex;
  by sex;
  set class_index;
  by age;
run;

按年龄回归正确，但按性别错误。

如果你要这样做（两个独立的，无关的键），你有很多选择。最常用的可能是用户定义的格式。这使用格式查找表来存储关系，然后你只需put（或input如果你想要一个数字，但如果你必须制作一个格式，你可能需要input(put(不是一个信息）。

data for_fmt_age;
  set mean_height_age;
  start = age;
  label = height_mean;
  fmtname='HEIGHTAGEF';
  output;
run;


data for_fmt_sex;
  set mean_weight_sex;
  start = sex;
  label = weight_mean;
  fmtname='$WEIGHTSEXF';
  output;
run;
proc format cntlin=for_fmt_sex;
quit;

proc format cntlin=for_fmt_age;
quit;


data want;
  set sashelp.class;
  mean_height = put(age,heightagef.);
  mean_weight = put(sex,$weightsexf.);
run;

第二个选项是键控组;这与合并最相似，只需要在合并数据集上创建索引。

proc datasets lib=work;
  modify mean_height_age;
  index create age;
  run;
  modify mean_weight_sex;
  index create sex;
  run;
quit;

data class_nomerge;
  set class_index;
  set mean_height_age key=age;
  set mean_weight_sex key=sex;
run;

最后，你可以使用哈希表，有点深奥但真的很容易使用。没有排序或其他任何需要，只是数据步骤本身。

data want;
  set sashelp.class;
  if 0 then set mean_height_Age mean_weight_sex;
  if _n_=1 then do;
    declare hash h_age(dataset:'mean_height_age');
    h_age.defineKey('age');
    h_age.defineData('height_mean');
    h_age.defineDone();

    declare hash h_sex(dataset:'mean_weight_sex');
    h_sex.defineKey('sex');
    h_sex.defineData('weight_mean');
    h_sex.defineDone();

  end;
  rc_age = h_age.find();
  rc_sex = h_sex.find();
run;

Answer 2

搜索sas 9.4 "combining SAS data sets: methods"会让您深入了解某些文档。

DATA Step MERGE / BY处理要求所有传入的数据源具有相同的列名和类型。

可以使用RENAME =（）对输入数据进行表面调整，以使列名与BY语句中列出的列对齐。如果字符数据长度不匹配，则可能会发生截断和错误匹配。

对于执行合并需要更复杂的转换（例如远程db中的数字id和本地数据集中的字符id）的情况，可以使用SQL视图进行预处理转换+排序。这对于在SQL构造中繁重或困难的行执行基于数组的处理的情况非常有用。

理解程序数据向量以及DATA步骤编译器如何通过长度，属性，SET和MERGE语句按引入顺序构建它对于复杂的MERGE至关重要。

是否可以使用不同的密钥在SAS Data Step中将两个以上的数据集合并在一起？

2 个答案: