我正在用R的kaggle检查imdb电影数据集。
这是一个最小的repro数据集:
> movies <- data.frame(movie = as.factor(c("Movie 1", "Movie 2", "Movie 3", "Movie 4")), director = as.factor(c("Dir 1", "Dir 2", "Dir 1", "Dir 3")), director_rating = c(1000, 2000, 1000, 3000))
> movies
movie director director_rating
1 Movie 1 Dir 1 1000
2 Movie 2 Dir 2 2000
3 Movie 3 Dir 1 1000
4 Movie 4 Dir 3 3000
请注意,具有相同导演的每一行都具有相同的导演评级值。
我想列出导演,按评分排序,每位导演排一行。以下代码有效:
> library(dplyr)
> movies %>%
group_by(director) %>%
summarize(director_rating = mean(director_rating)) %>%
arrange(desc(director_rating))
# A tibble: 3 x 2
director director_rating
<fctr> <dbl>
1 Dir 3 3000
2 Dir 2 2000
3 Dir 1 1000
但是当我知道单个导演的所有评级相同时,计算平均值似乎很浪费。在R中执行此操作的更具惯用性/有效性的方法是什么?
答案 0 :(得分:5)
实际上没有必要进行分组和总结,因为您只是在寻找不同/唯一的条目。因此,dplyr选项是:
select(movies, -movie) %>%
distinct() %>%
arrange(desc(director_rating))
# director director_rating
#1 Dir 3 3000
#2 Dir 2 2000
#3 Dir 1 1000
或者如果您想保留其他列:
distinct(movies, director, .keep_all = TRUE) %>% # for dplyr >= 0.5.0
arrange(desc(director_rating))
# movie director director_rating
#1 Movie 4 Dir 3 3000
#2 Movie 2 Dir 2 2000
#3 Movie 1 Dir 1 1000
答案 1 :(得分:3)
这是base R
选项:
unique(movies[,2:3])[order(-unique(movies[,2:3])[,2]),]
# director director_rating
#4 Dir 3 3000
#2 Dir 2 2000
#1 Dir 1 1000
答案 2 :(得分:2)
我们可以使用data.table
library(data.table)
setDT(movies)[, .(director_rating = director_rating[1]), director][order(-director_rating)]
# director director_rating
#1: Dir 3 3000
#2: Dir 2 2000
#3: Dir 1 1000
或setorder/unique
来自unique
的{{1}}也有data.table
选项。
by