Question

我没有找到答案，所以

基本上如何对数据集执行SQL查询，首先根据几列对行进行分组，然后仅选择/过滤行数多于指定大小的组。

Heres是我尝试使用pandas数据帧实现的一个例子：

df.groupby([cols_to_group]).filter(lambda x: len(x) > minimum_group_size)

如何使用SQL查询执行此操作？

Answer 1

我认为解决方案可以是这样的：

SELECT *
FROM (
    SELECT *
        , COUNT(*) OVER (PARTITION BY cols_to_group) as cnt  -- cnt is length of each group
    FROM yourTable) t
WHERE t.cnt > minimum_group_size;

SQL选择最小大小为

1 个答案: