data.table替代管道

时间:2019-01-13 10:48:46

标签: r ggplot2 data.table

我目前正在学习非常健壮和高效的data.table框架(包)。但是,我似乎无法弄清楚该如何做。 我想要做的是按多列(制造商和运营商)分组,基于该分组获取航班数量,然后按降序排列,然后是排名前10位的制造商和运营商的图表。 我会在tidyverse中这样做,如下所示:

library(nycflights13)
library(tidyverse)
flights %>% 
  left_join(planes, by = "tailnum") %>% 
  group_by(manufacturer, carrier) %>% 
  summarise(N = n()) %>% 
  arrange(desc(N)) %>% 
  top_n(10, N) %>% 
  ggplot(aes(carrier, N, fill = manufacturer)) + geom_col() + guides(fill = FALSE)

这是我尝试过的方法:(我把问题留了几分钟尝试解决,但失败了

library(data.table)
fly<-copy(nycflights13::flights)
setDT(fly)
setkey(fly,tailnum)
planes1 <- copy(planes)
setDT(planes1)
setkey(planes1, tailnum)
#head(planes1,2)
Merged <- merge(fly, planes1, by = "tailnum")
#Group by manufacturer
Merged[, .N, by = .(manufacturer,carrier)] #[, order(manufacturer, carrier)]

问题是我无法返回有序数据,也不知道如何在不先将有序合并保存为对象的情况下“链接”到ggplot。

1 个答案:

答案 0 :(得分:8)

您可以使用方括号[]中的内容链接在一起。此外,您可以在语法的ggplot部分内执行j调用:

nms <- setdiff(names(planes1), "tailnum")

fly[planes1, on = .(tailnum), (nms) := mget(nms)
    ][, .N, by = .(manufacturer,carrier)
      ][order(-N)
        ][, .SD[1:10], by = .(manufacturer,carrier)
          ][, ggplot(.SD, aes(carrier, N, fill = manufacturer)) +
              geom_col() +
              guides(fill = FALSE)]

给出:

enter image description here