Question

我有一个 USERID 的数据框（因此我们将其分组），以及其他变量状态和日期。

其中一些 USERID 的状态超过5种，因此我们应该只保留最近的5种状态，日期。

我应该如何对此进行编码，看起来很简单但我没有设法这样做。

Answer 1

我们可以使用data.table。转换＆＃39; data.frame＆＃39;到＆＃39; data.table＆＃39; （setDT(df1)），按＆＃39; USERID＆＃39;分组，我们order＆＃39;日期＆＃39;逐渐减少（假设＆＃39;日期＆＃39;列为Date类）并获得前{5}行head

library(data.table)
setDT(df1)[order(-date), head(.SD, 5), by=USERID]

或者如评论中提到的@Symbolix，我们也可以使用.I获取行索引，然后删除不包含5行的组的NA行。

 na.omit(setDT(df1)[df1[order(-date), .I[1:5], by= USERID]$V1 ])

数据

set.seed(49)
df1 <- data.frame(USERID= sample(LETTERS[1:3], 12, 
  replace=TRUE), date= sample(seq(as.Date('2014-01-01'), 
  length.out=12, by = '1 day')))

Answer 2

如果你是dplyr的粉丝，你可以做

library(dplyr)

df %>%
  group_by(USERID) %>%
  arrange(-date) %>%
  slice(1:5) %>%
  ungroup

在“大型”数据集上，data.table方法可能会更快，但dplyr的语法稍微容易一些（首先在我看来）。

如果组超过五行，则仅保留前五行

2 个答案:

数据