我有以下示例数据集(下面和/或这里的CSV:http://goo.gl/wK57T),我想要转换如下。对于一个家庭中的每个人,我想创建两个新变量OrigTAZ和DestTAZ。它应该取TripendTAZ中的值并将其放在DestTAZ中。对于OrigTAZ,它应该从上一行中放置TripendTAZ的值。对于家庭中每个人的第一次旅行(Tripid = 1),OrigTAZ = hometaz。对于一个家庭中的每个人,从第二次旅行OrigTAZ = TripendTAZ_(n-1)和DestTAZ = TripEndTAZ。样本输入和输出数据如下所示。我尝试了这里显示的建议:Basic lag in R vector/dataframe但没有运气。我习惯在SAS做这样的事情。
感谢任何帮助。
TIA, 克里希南
SAS Code Sample
if Houseid = lag(Houseid) then do;
if Personid = lag(Personid) then do;
DestTAZ = TripendTAZ;
if Tripid = 1 then OrigTAZ = hometaz
else
OrigTAZ = lag(TripendTAZ);
end;
end;
输入数据
Houseid,Personid,Tripid,hometaz,TripendTAZ
1,1,1,45,4
1,1,2,45,7
1,1,3,45,87
1,1,4,45,34
1,1,5,45,45
2,1,1,8,96
2,1,2,8,4
2,1,3,8,2
2,1,4,8,1
2,1,5,8,8
2,2,1,8,58
2,2,2,8,67
2,2,3,8,9
2,2,4,8,10
2,2,5,8,8
3,1,1,7,89
3,1,2,7,35
3,1,3,7,32
3,1,4,7,56
3,1,5,7,7
输出数据
Houseid,Personid,Tripid,hometaz,TripendTAZ,OrigTAZ,DestTAZ
1,1,1,45,4,45,4
1,1,2,45,7,4,7
1,1,3,45,87,7,87
1,1,4,45,34,87,34
1,1,5,45,45,34,45
2,1,1,8,96,8,96
2,1,2,8,4,96,4
2,1,3,8,2,4,2
2,1,4,8,1,2,1
2,1,5,8,8,1,8
2,2,1,8,58,8,58
2,2,2,8,67,58,67
2,2,3,8,9,67,9
2,2,4,8,10,9,10
2,2,5,8,8,10,8
3,1,1,7,89,7,89
3,1,2,7,35,89,35
3,1,3,7,32,35,32
3,1,4,7,56,32,56
3,1,5,7,7,56,7
答案 0 :(得分:3)
只需按照您逐步概述的步骤进行操作即可。
首先,我会通过复制来读取您的数据:
df <- read.csv(file('clipboard'))
然后我会确定数据框是按照houseid,然后是personid,然后是tripid来排序的:
# first sort so that it's ordered by Houseid, then Personid, then Tripid:
df <- with(df, df[order(Houseid,Personid,Tripid),])
然后按照您指定的步骤进行操作:
# take value in TripendTAZ and put it in DestTAZ
df$DestTAZ <- df$TripendTAZ
# Set OrigTAZ = value from previous row
df$OrigTAZ <- c(NA,df$TripendTAZ[-nrow(df)])
# For the first trip of every person in a household (Tripid = 1),
# OrigTAZ = hometaz.
df$OrigTAZ[ df$Tripid==1 ] <- df$hometaz[ df$Tripid==1 ]
您会注意到df
就是您所追求的目标。