我正在尝试使用dplyr来按汇总用户评论分组,这些评论在发布后被视为“参与”
数据库是user-post-is_engaged-comments(char-char-bool-num),看起来像这样:
user_id post_id is_engaged comments
user1 post1 TRUE 3
user1 post2 FALSE 1
user1 post2 FALSE NA
所以我想总结参与的帖子中发表的评论数量。
所以我通常这样做
df_user_post %>%
summarise(
total_users = n_distinct(user_id[is_engaged == TRUE]),
total_comments_on_engaged_posts = sum(comments[is_engaged == TRUE],na.rm = TRUE)
)
我得到:
total_users_on_engaged post total_comments_on_engaged_posts
586 0
第一个数字(586)是正确的,第二个数字是错误的。
我知道事实上我的数据框上有关于参与的帖子的评论,所以我想知道为什么它将总计为0?我在做什么错了?