只选择那些至少有N个评论的啤酒

时间:2017-03-09 11:34:21

标签: r

我有一个如下所示的数据集。我如何只选择至少有10条评论的ID。数据集非常大,我不想选择每个ID,除了很少有关于啤酒的评论可能无法提供明确的见解。

import os
import sys

while True:
    try:
        if os.system('sleep 1 '):
            raise KeyboardInterrupt
    except KeyboardInterrupt:
        print("Alarm stopped")
        sys.exit(0)

2 个答案:

答案 0 :(得分:0)

这里有一个可行的方法。

您需要一个</form> / TRUE值的向量,指示哪些行的ID重复次数超过10次。然后用那个索引你FALSE

df将返回不同table(df$beer_beerid)的数量。从那以后你可以拿那些更重要的那些。

beer_beerid。将那些重复超过10次的啤酒归还。

最后,您可以为which(table(df$beer_beerid) > 10)索引:

df

答案 1 :(得分:0)

很多方法,Carles有一个很好的基础R解决方案。使用dplyr即可:

library(dplyr)
df %>% group_by(beer_beerid) %>% filter(n() > 9)