假设数据集有三列
Date Region Price
01-03 A 1
01-03 A 2
01-03 B 3
01-03 B 4
01-03 A 5
01-04 B 4
01-04 B 6
01-04 B 7
我尝试通过以下代码按日期和地区获取主要价格。
data want;
set have;
by _ric date_l_;
do until (eof);
set have(firstobs=2 keep=price rename=(price=lagprice)) end=eof;
end;
if last.date_l_ then call missing(lagprice);
run;
但是,WANT只有一个观察结果。然后我创建new_date=date
并尝试另一个代码:
data want;
set have nobs=nobs;
do _i = _n_ to nobs until (new_date ne Date);
if eof1=0 then
set have (firstobs=2 keep=price rename=(price=leadprice)) end=eof1;
else leadprice=.;
end;
run;
使用此代码,SAS工作缓慢。所以我认为这段代码也不合适。有人能提出一些建议吗?感谢
答案 0 :(得分:2)
尝试按您想要的铅价变量进行排序,然后两次设置:
data test;
length Date Region $12 Price 8 ;
input Date $ Region $ Price ;
datalines;
01-03 A 1
01-03 A 2
01-03 B 3
01-03 B 4
01-03 A 5
01-04 B 4
01-04 B 6
01-04 B 7
;
run;
** sort by vars you want lead price for **;
proc sort data = test;
by DATE REGION;
run;
** set together twice -- once for lead price and once for all variables **;
data lead_price;
set test;
by DATE REGION;
set test (firstobs = 2 keep = PRICE rename = (PRICE = LEAD_PRICE))
test (obs = 1 drop = _ALL_);
if last.DATE or last.REGION then do;
LEAD_PRICE = .;
end;
run;
答案 1 :(得分:0)
您可以使用proc expand
按组生成数字变量的潜在客户。请尝试以下方法:
第1步:按地区排序,日期
proc sort data=have;
by Region Date;
run;
第2步:创建一个新的ID变量来表示观察数
由于每个地区的每个日期都有多个值,因此我们需要生成一个新的ID变量,以便proc expand
按观察数而不是lead
使用date
。
data have2;
set have;
_ID_ = _N_;
run;
第3步:使用proc expand
转换按地区运行lead
lead
会完全听起来。只要数据支持,您就可以使用尽可能多的值。在这种情况下,我们通过一个观察引导。
proc expand data=have2
out=want;
by Region;
id _ID_;
convert Price = Lead_Price / transform=(lead 1) ;
run;