我对SAS有点生疏(我已经好几年没用了),我可以帮忙。
这是我拥有的两个数据库:
时间t:
data data1;
infile DATALINES DLM=" ";
input id_worker id_firm;
datalines;
1 11
2 11
3 11
4 12
5 12
6 12
7 12
8 13
9 13
10 13
;
run;
时间t + 1:
data data2;
infile DATALINES DLM=" ";
input id_worker id_firm;
datalines;
1 12
2 11
3 11
4 12
5 12
6 12
7 12
8 14
9 14
11 11
;
run;
我想计算,每个id_firm在t + 1中存在但不在t + 1中的工作者数量,并将结果放在t + 1数据库中的变量“count”中,例如:
data data2;
infile DATALINES DLM=" ";
input id_worker id_firm count;
datalines;
1 12 0
2 11 1
3 11 1
4 12 0
5 12 0
6 12 0
7 12 0
8 14 0
9 14 0
11 11 1
;
run;
在旁注中,我必须在15个时间段内完成此操作,对于每个时期,数据库有数百万个观察值和大约一百个变量。
谢谢!