大家好我有这个数据集
library(dplyr)
library(tidyr)
input<- frame_data(
~member_id, ~fill_date , ~drug, ~days_supply,
"603", "02/17/2005", "a", 30,
"603", "06/13/2005", "a", 30,
"603", "08/11/2005", "a", 30,
"603", "06/12/2006", "b", 15,
"603", "05/09/2006", "b", 30
)
我正在尝试创建一个名为“time”的变量,它表示变量“drug”出现的时间。所以输出应该是这样的
output<- frame_data(
~member_id, ~fill_date , ~drug, ~days_supply, ~time,
"603", "02/17/2005", "a", 30, 1,
"603", "06/13/2005", "a", 30, 2,
"603", "08/11/2005", "a", 30, 3,
"603", "06/12/2006", "b", 15, 1,
"603", "05/09/2006", "b", 30 2
)
换句话说,我正在寻找一种可以在每次“药物”变量发生变化时重置的循环 我试过这段代码
time<-1
i<-2
j<-1
while (i <=nrow(input)){
if (input[i,3,drop=]==input[i-1,3,drop=]){
j<-i
time<-c(time,j)
}else{
j<-1
time<-c(time,j)
}
i<-i+1
}
但当然它不起作用,因为我无法重置,因为它在同时验证条件时指示行索引。
感谢您的帮助
答案 0 :(得分:2)
您正在使用dplyr
,因此请使用group_by
,而不是循环。
input %>% group_by(drug) %>% mutate(time = 1:n())
您可能也希望将member_id
添加到群组中,但由于您没有提及我不包括在内。如果是,请group_by(drug, member_id)
代替group_by(drug)
。