我有一个数据集,该数据集基本上列出了影院中放映的所有电影的票房,并且有5个变量:
排名,标题,工作室,总收入,年份。
我正在尝试创建一个查询,以查看哪个工作室每年利润最高。这是我的代码,但是我显然遗漏了一些东西。救命?
library(dplyr)
boxoffice %>%
arrange(desc(year)) %>%
group_by(studio, year) %>%
summarise(profit = sum(lifetime_gross)) %>%
arrange(desc(year), desc(profit)) %>%
mutate(rank_new = rank(desc(profit))) %>%
filter(rank_new == 1)
答案 0 :(得分:0)
我假设this is the dataset;我相信它来自Kaggle。
我建议对您的代码进行更改:
arrange
任何东西year
分组,然后按studio
studio_gross
而不是profit
综合考虑,我建议这样。我使用as.numeric()
来避免有关整数溢出的警告。
library(dplyr)
boxoffice %>%
group_by(year, studio) %>%
summarise(studio_gross = sum(as.numeric(lifetime_gross))) %>%
ungroup() %>%
group_by(year) %>%
filter(studio_gross == max(studio_gross))