年度最赚钱的工作室

时间:2018-09-04 22:33:36

标签: r dplyr

我有一个数据集,该数据集基本上列出了影院中放映的所有电影的票房,并且有5个变量:

排名,标题,工作室,总收入,年份。

我正在尝试创建一个查询,以查看哪个工作室每年利润最高。这是我的代码,但是我显然遗漏了一些东西。救命?

library(dplyr)

boxoffice %>%  
 arrange(desc(year)) %>%  
 group_by(studio, year) %>%  
 summarise(profit = sum(lifetime_gross)) %>%  
 arrange(desc(year), desc(profit)) %>%  
 mutate(rank_new = rank(desc(profit))) %>%   
 filter(rank_new == 1)

1 个答案:

答案 0 :(得分:0)

我假设this is the dataset;我相信它来自Kaggle。

我建议对您的代码进行更改:

  • 不需要arrange任何东西
  • 先按year分组,然后按studio
  • 我们调用变量studio_gross而不是profit
  • 要获得按年计的最高总收入,我们需要取消分组,按年再次分组,然后过滤

综合考虑,我建议这样。我使用as.numeric()来避免有关整数溢出的警告。

library(dplyr)
boxoffice %>% 
  group_by(year, studio) %>% 
  summarise(studio_gross = sum(as.numeric(lifetime_gross))) %>% 
  ungroup() %>% 
  group_by(year) %>% 
  filter(studio_gross == max(studio_gross))