我没有找到答案,所以
基本上如何对数据集执行SQL查询,首先根据几列对行进行分组,然后仅选择/过滤行数多于指定大小的组。
Heres是我尝试使用pandas数据帧实现的一个例子:
df.groupby([cols_to_group]).filter(lambda x: len(x) > minimum_group_size)
如何使用SQL查询执行此操作?
答案 0 :(得分:1)
我认为解决方案可以是这样的:
SELECT *
FROM (
SELECT *
, COUNT(*) OVER (PARTITION BY cols_to_group) as cnt -- cnt is length of each group
FROM yourTable) t
WHERE t.cnt > minimum_group_size;