我有一张看起来像这样的表
|=========|=====|==================|==============|===========|===========|
| PREFIX | ID | PREVIOUS_PREFIX | PREVIOUS_ID | VENDOR_1 | VENDOR_2 |
|=========|=====|==================|==============|===========|===========|
| A | 1 | | | JAC | BOA |
|---------|-----|------------------|--------------|-----------|-----------|
| B | 2 | C | 99 | LCH | GS |
|---------|-----|------------------|--------------|-----------|-----------|
| B | 3 | C | 99 | LCH | JPM |
|---------|-----|------------------|--------------|-----------|-----------|
我需要把它变成一个看起来像这样的表
|=========|=====|==================|==============|===========|===========|
| PREFIX | ID | PREVIOUS_PREFIX | PREVIOUS_ID | VENDOR_1 | VENDOR_2 |
|=========|=====|==================|==============|===========|===========|
| A | 1 | | | JAC | BOA |
|---------|-----|------------------|--------------|-----------|-----------|
| C | 99 | | | GS | JPM |
|---------|-----|------------------|--------------|-----------|-----------|
那是:
PREVIOUS_PREFIX
和PREVIOUS_ID
的行,它会将该行保留为PREVIOUS_PREFIX
和PREVIOUS_ID
的行:
PREFIX
与PREVIOUS_PREFIX
相同,ID
与PREVIOUS_ID
和VENDOR_1
以及VENDOR_2
相同是原始行对不常见的供应商答案 0 :(得分:0)
/* Create sample data */
data have;
input Prefix $ ID Previous_Prefix $ Previous_ID Vendor_1 $ Vendor_2 $;
cards;
A 1 . . JAC BOA
B 2 C 99 LCH GS
B 3 C 99 LCH JPM
E 5 F 52 LOK U
E 5 F 52 LOK M
;;;
run;
/* Assign new values for Prefix & ID */
data want;
set have;
if Previous_Prefix ne '' then do;
Prefix = Previous_Prefix;
Previous_Prefix = '';
end;
if Previous_ID ne . then do;
ID = Previous_ID;
Previous_ID = .;
end;
run;
/* Merge Vendor_1 & Vender2 into one column */
data want2;
set want;
if first.ID then n = 0;
n + 1;
by ID notsorted;
run;
proc transpose data=want2 out=want3(drop=n _NAME_ rename=(COL1=Vendor));
by Prefix ID n Previous_Prefix Previous_ID;
var Vendor_1 Vendor_2;
run;
/* Delete common Vendor_ */
proc sort data=want3;by Prefix ID Previous_Prefix Previous_ID Vendor;run;
proc summary data=want3;
output out=want4(where=(_freq_ = 1));
by Prefix ID Previous_Prefix Previous_ID Vendor notsorted;
run;
/* Transpose data from long back to wide */
proc transpose data=want4 out=want5(drop=_:) prefix=Vendor_;
var Vendor;
by Prefix ID Previous_Prefix Previous_ID notsorted;
run;
答案 1 :(得分:0)
一个稍微简单的解决方案是将单个观察扩展为2个观察并将供应商转换为单个变量,并将其与合并的previous_prefix和前缀一起获得new_prefix以及类似的id。按此顺序获取数据可以解决单个sql中的问题。看看这个草案代码。
DATA WANT;
SET HAVE;
PREFIX_NEW =COALESCEC(PREVIOUS_PREFIX,PREFIX);
ID_NEW =COALESCEC(PREVIOUS_ID ,ID);
IF NOT MISSING(VENDOR_1) THEN VENDOR=VENDOR_1;
OUTPUT;
IF NOT MISSING(VENDOR_2) THEN VENDOR=VENDOR_2;
OUTPUT;
RUN;
PROC SQL;
SELECT PREFIX_NEW
, ID_NEW
, MIN(VENDOR) AS VENDOR_1
, MAX(VENDOR) AS VENDOR_2
FROM ( SELECT PREFIX_NEW
, ID_NEW
, VENDOR
, COUNT(*) AS COUNTER
FROM WANT
GROUP BY 1,2,3
HAVING COUNTER=1
)
;
QUIT;
希望这有帮助!!!
答案 2 :(得分:0)
如果您的数据与您所说的一样简单,您可以在单个数据步骤中实现此目的。我的假设是,最多只有2行具有重复的前缀,并且始终只有2个唯一的供应商ID。如果没有这样做,数据也需要按前缀和ID排序。
使用Select * from users where CAST (userid as varchar(10)) = '5 shiv';
和first.
的组合来确定是否存在重复的前缀行并设置所需的值,这些主要要求非常简单。更棘手的部分是供应商逻辑,我通过创建一个临时变量来保存所有名称的列表,首先检查当前名称是否已存在。如果是,则从列表中删除该名称,否则将添加该名称。
我在代码中添加了大量注释来解释发生了什么,希望它相当清楚。由于每个前缀最多只有2次迭代(我希望),我复制了几行代码而不是创建last.
。
do loop