按因子数量级别对R数据帧进行排序

时间:2016-04-03 13:26:04

标签: r sorting dataframe data.table

我有三个列的巨大数据框:

   Surgeon Length  Surg. Date
    John    75   2015-07-06
    Max     120  2015-06-22
    Max     190  2015-01-26
    David   40   2015-11-04
    David   25   2015-04-21
    David   50   2015-12-11
    Andrey  210  2015-03-15
    Vincent 180  2015-01-30
    Vincent 180  2015-06-10

我想根据外科医生做了多少手术来分类。如果两位外科医生做了相同数量的手术,那么手术日期应决定等级。 输出应如下所示:

   Surgeon Length  Surg. Date
    Andrey  210  2015-03-15
    John    75   2015-07-06
    Max     190  2015-01-26
    Max     120  2015-06-22
    Vincent 180  2015-01-30
    Vincent 180  2015-06-10
    David   25   2015-04-21
    David   40   2015-11-04
    David   50   2015-12-11

安德烈和约翰的名字出现在桌子上,所以他们先来,但是安德鲁有一个更早的约会,因此他是表中的第一个。然后来到马克斯和文森特,两人都进行了2次手术。然后大卫与3.

有一种简单的方法吗?

1 个答案:

答案 0 :(得分:7)

dd <- read.table(header = TRUE, text = "Surgeon Length  'Surg. Date'
John    75   2015-07-06
Max     120  2015-06-22
Max     190  2015-01-26
David   40   2015-11-04
David   25   2015-04-21
David   50   2015-12-11
Andrey  210  2015-03-15
Vincent 180  2015-01-30
Vincent 180  2015-06-10", check.names = FALSE)

我们可以设置Surgeon的级别,以便r负责我们的排序。如果我们将外科医生列表并对表格进行排序,您可以看到表格名称按您的意愿排序,因此我们只需将此顺序设置为levels(Surgeon)的顺序而不是默认(字母顺序)。

然后我们只需按日期添加额外的排序级别。

sort(tbl <- table(dd$Surgeon))
 # Andrey    John     Max Vincent   David 
 #      1       1       2       2       3 

对于有关系的人,我们还可以添加第一个日期的排序因子

(lvls <- names(tbl)[order(tbl, tapply(as.Date(dd$`Surg. Date`), dd$Surgeon, min))])
# [1] "Andrey"    "John"  "Max"     "Vincent" "David"  

dd$Surgeon <- factor(dd$Surgeon, levels = lvls)

dd[order(dd$Surgeon, dd$`Surg. Date`), ]
#   Surgeon Length Surg. Date
# 7  Andrey    210 2015-03-15
# 1    John     75 2015-07-06
# 3     Max    190 2015-01-26
# 2     Max    120 2015-06-22
# 8 Vincent    180 2015-01-30
# 9 Vincent    180 2015-06-10
# 5   David     25 2015-04-21
# 4   David     40 2015-11-04
# 6   David     50 2015-12-11

使用@ akrun dplyr解决方案,您可以更高效地采用类似的方法。

library('dplyr')
dd %>%
  group_by(Surgeon) %>%
  mutate(n=n()) %>%
  ungroup() %>%
  arrange(n, Surgeon, `Surg. Date`) %>%
  select(-n)

#   Surgeon Length Surg. Date
#    (fctr)  (int)     (fctr)
# 1  Andrey    210 2015-03-15
# 2    John     75 2015-07-06
# 3     Max    190 2015-01-26
# 4     Max    120 2015-06-22
# 5 Vincent    180 2015-01-30
# 6 Vincent    180 2015-06-10
# 7   David     25 2015-04-21
# 8   David     40 2015-11-04
# 9   David     50 2015-12-11

或者如果你订购了如上所述的因子水平,你可以这样做

dd %>% arrange(Surgeon, `Surg. Date`)

使用data.table,您仍然可以使用表/因子级别方法并设置密钥,但我不确定这是否是data.table方式(即,唯一的开销是{{ 1}}对于大型矢量来说似乎相当快)

table