我目前正在学习非常健壮和高效的data.table框架(包)。但是,我似乎无法弄清楚该如何做。 我想要做的是按多列(制造商和运营商)分组,基于该分组获取航班数量,然后按降序排列,然后是排名前10位的制造商和运营商的图表。 我会在tidyverse中这样做,如下所示:
library(nycflights13)
library(tidyverse)
flights %>%
left_join(planes, by = "tailnum") %>%
group_by(manufacturer, carrier) %>%
summarise(N = n()) %>%
arrange(desc(N)) %>%
top_n(10, N) %>%
ggplot(aes(carrier, N, fill = manufacturer)) + geom_col() + guides(fill = FALSE)
这是我尝试过的方法:(我把问题留了几分钟尝试解决,但失败了
library(data.table)
fly<-copy(nycflights13::flights)
setDT(fly)
setkey(fly,tailnum)
planes1 <- copy(planes)
setDT(planes1)
setkey(planes1, tailnum)
#head(planes1,2)
Merged <- merge(fly, planes1, by = "tailnum")
#Group by manufacturer
Merged[, .N, by = .(manufacturer,carrier)] #[, order(manufacturer, carrier)]
问题是我无法返回有序数据,也不知道如何在不先将有序合并保存为对象的情况下“链接”到ggplot。
答案 0 :(得分:8)
您可以使用方括号[
和]
将data.table中的内容链接在一起。此外,您可以在data.table语法的ggplot
部分内执行j
调用:
nms <- setdiff(names(planes1), "tailnum")
fly[planes1, on = .(tailnum), (nms) := mget(nms)
][, .N, by = .(manufacturer,carrier)
][order(-N)
][, .SD[1:10], by = .(manufacturer,carrier)
][, ggplot(.SD, aes(carrier, N, fill = manufacturer)) +
geom_col() +
guides(fill = FALSE)]
给出: