Question

我有一个如下所示的数据集。我如何只选择至少有10条评论的ID。数据集非常大，我不想选择每个ID，除了很少有关于啤酒的评论可能无法提供明确的见解。

import os
import sys

while True:
    try:
        if os.system('sleep 1 '):
            raise KeyboardInterrupt
    except KeyboardInterrupt:
        print("Alarm stopped")
        sys.exit(0)

Answer 1

这里有一个可行的方法。

您需要一个</form> / TRUE值的向量，指示哪些行的ID重复次数超过10次。然后用那个索引你FALSE。

df将返回不同table(df$beer_beerid)的数量。从那以后你可以拿那些更重要的那些。

beer_beerid。将那些重复超过10次的啤酒归还。

最后，您可以为which(table(df$beer_beerid) > 10)索引：

df

Answer 2

很多方法，Carles有一个很好的基础R解决方案。使用dplyr即可：

library(dplyr)
df %>% group_by(beer_beerid) %>% filter(n() > 9)

只选择那些至少有N个评论的啤酒

2 个答案: