在我的数据集中,相同的用户已经多次评价相同的项目(尽管评分不同)。因此,getRatings命令正在聚合评级。
如何在制作推荐系统时解决此问题?
library(recommenderlab)
beer_beerid review_profilename review_overall
5441 Kadonny 3.0
5441 Kadonny 4.5
5441 Kadonny 4.0
答案 0 :(得分:0)
查看duplicated
,然后使用您要检查的列。因此请忽略此测试的review_overall
列...
duplicated_ratings <- duplicated(my_rating_df[c('beer_beerid','review_profilename')])
single_rating <- my_rating_df[!duplicated_ratings,]
如果您想创建平均值,我建议使用dplyr
包。
library(dplyr)
my_rating_df %>%
group_by(beer_beerid, review_profilename) %>%
summarise(average_rating=mean(review_overall)