我有一个如下所示的数据集。我如何只选择至少有10条评论的ID。数据集非常大,我不想选择每个ID,除了很少有关于啤酒的评论可能无法提供明确的见解。
import os
import sys
while True:
try:
if os.system('sleep 1 '):
raise KeyboardInterrupt
except KeyboardInterrupt:
print("Alarm stopped")
sys.exit(0)
答案 0 :(得分:0)
这里有一个可行的方法。
您需要一个</form>
/ TRUE
值的向量,指示哪些行的ID重复次数超过10次。然后用那个索引你FALSE
。
df
将返回不同table(df$beer_beerid)
的数量。从那以后你可以拿那些更重要的那些。
beer_beerid
。将那些重复超过10次的啤酒归还。
最后,您可以为which(table(df$beer_beerid) > 10)
索引:
df
答案 1 :(得分:0)
很多方法,Carles有一个很好的基础R解决方案。使用dplyr
即可:
library(dplyr)
df %>% group_by(beer_beerid) %>% filter(n() > 9)