我正在尝试创建一个程序,该程序选择最长900天(1-30,31-60,61-90 ...... 871- 900)。我正在使用 R 版本3.3.3。
这是我拥有的数据集的一个示例:
have <- structure(list(id = c(1L, 1L, 1L, 2L, 2L, 3L, 3L, 4L, 4L, 4L,
5L, 5L, 6L, 6L, 7L, 7L, 7L, 7L, 8L, 8L, 8L, 8L, 8L, 9L, 9L, 9L,
9L, 9L, 9L, 9L, 9L, 9L), time.to.first = c(0L, 78L, 293L, 0L,
63L, 0L, 89L, 0L, 11L, 27L, 0L, 28L, 0L, 29L, 0L, 31L, 381L,
778L, 0L, 28L, 69L, 96L, 466L, 0L, 28L, 56L, 98L, 154L, 220L,
294L, 395L, 507L), visit = c(1L, 2L, 3L, 1L, 2L, 1L, 2L, 1L,
2L, 3L, 1L, 2L, 1L, 2L, 1L, 2L, 3L, 4L, 1L, 2L, 3L, 4L, 5L, 1L,
2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L)), .Names = c("id", "time.to.first",
"visit"), row.names = c(NA, 32L), class = "data.frame")
这就是我想要的:
want <- structure(list(id = c(1L, 1L, 1L, 2L, 2L, 3L, 3L, 4L, 4L, 4L,
5L, 5L, 6L, 6L, 7L, 7L, 7L, 7L, 8L, 8L, 8L, 8L, 8L, 9L, 9L, 9L,
9L, 9L, 9L, 9L, 9L, 9L), time.to.first = c(0L, 78L, 293L, 0L,
63L, 0L, 89L, 0L, 11L, 27L, 0L, 28L, 0L, 29L, 0L, 31L, 381L,
778L, 0L, 28L, 69L, 96L, 466L, 0L, 28L, 56L, 98L, 154L, 220L,
294L, 395L, 507L), visit = c(1L, 2L, 3L, 1L, 2L, 1L, 2L, 1L,
2L, 3L, 1L, 2L, 1L, 2L, 1L, 2L, 3L, 4L, 1L, 2L, 3L, 4L, 5L, 1L,
2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L), time.window = structure(c(1L,
11L, 5L, 1L, 11L, 1L, 11L, 1L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 6L,
7L, 12L, 1L, 2L, 11L, 13L, 9L, 1L, 2L, 6L, 13L, 3L, 4L, 5L, 8L,
10L), .Label = c("", "1-30", "151-180", "211-240", "271-300",
"31-60", "361-390", "391-420", "451-480", "481-510", "61-90",
"751-780", "91-120"), class = "factor")), .Names = c("id", "time.to.first",
"visit", "time.window"), row.names = c(NA, 32L), class = "data.frame")
我能够弄清楚如何使用一系列ifelse
语句和filter
和left_join
来创建日期范围的第一个日期范围(1-30天):
x <- 1
y <- 30
df <- have %>% group_by(id) %>%
mutate(flag = ifelse(time.to.first >= x & time.to.first <= y,max(visit),""),
flag2 = ifelse(flag == max(flag) & flag != "",1,"")) %>%
filter(flag > 0 & flag2 == 1) %>%
filter(visit == max(visit)) %>%
mutate(time = paste(x,"-", y, sep = "")) %>%
dplyr::select(time, id, visit) %>%
left_join(have, ., by = c("id","visit"))
我当时想可以对x
和y
变量使用双嵌套的for循环,以便创建一个可以处理其余日期范围的程序,但是我知道嵌套循环可能不是解决此问题的最有效方法。
我试图想出一种使程序更健壮的方法,以便可以更改窗口的时间(从30天更改为90,180,360等),但我不确定如何处理。 / p>
我不想为我编写代码,但希望对您认为可能有用的功能或示例提出想法。我一直很难找到此类程序的更多信息,因此任何其他链接都将有所帮助!
答案 0 :(得分:1)
使用从@Frank中摘录的代码,我可以执行以下操作:
python -c "import sqlite3; print(sqlite3.sqlite_version)"
在最后一步中,我将确定在特定时间范围内选择了多次访问并进行最近一次访问(对应于最接近时间范围顶部的日期)的情况。现在,我要做的只是一个简单的want1 <- have %>% mutate(x = as.character(cut(time.to.first, seq(0, ceiling(max(time.to.first)/30)*30, by=30)))) %>% group_by(id,x) %>% filter(visit == max(visit)) %>% mutate(y = x) %>% ungroup()
,也许还可以简化时间范围代码。