没有子查询的PostgreSQL中的总百分比

时间:2011-06-27 07:33:14

标签: postgresql

我有一个用户表。每个用户都有一个国家。我想要的是获得具有用户数量和百分比/总数的所有国家/地区的列表。到目前为止我所拥有的是:

SELECT
country_id,
COUNT(*) AS total,
((COUNT(*) * 100) / (SELECT COUNT(*) FROM users WHERE cond1 = true AND cond2 = true AND cond3 = true)::decimal) AS percent
FROM users
WHERE cond1 = true AND cond2 = true AND cond3 = true
GROUP BY contry_id

两个查询中的条件都相同。我尝试在没有子查询的情况下执行此操作但是我无法获得用户总数,但每个国家/地区的总数。有没有子查询可以做到这一点?我正在使用PostgreSQL。任何帮助都非常感谢。 提前致谢

4 个答案:

答案 0 :(得分:8)

我想你想要消除子查询的原因是避免两次扫描users表。请记住,总数是每个国家/地区的总和。

WITH c AS (SELECT country_id, count(*) AS cnt FROM users WHERE cond1=... GROUP BY country_id) 
SELECT *, 100.0*cnt/(SELECT sum(cnt) FROM c) AS percent FROM c;

此查询使用每个国家/地区的统计信息构建一个小型CTE。它只会扫描一次用户表,并生成一个小的结果集(每个国家只有一行)。

总计(SELECT sum(cnt)FROM c)仅在此小结果集上计算一次,因此使用的时间可忽略不计。

您也可以使用窗口功能:

SELECT country_id, cnt, 100.0*cnt/(sum(cnt) OVER ()) AS percent 
FROM (SELECT country_id, count(*) as cnt from users group by country_id) foo;

(这与夜狼的查询相同,删除了错误lol)

两个查询大约需要同一时间。

答案 1 :(得分:2)

我不是PostgreSQL用户,但一般的解决方案是使用窗口函数。

了解如何在http://developer.postgresql.org/pgdocs/postgres/tutorial-window.html

中使用此功能

我可以用来描述它的最佳解释是:基本上它允许你在没有group by子句的情况下在一个字段上进行分组。

我相信这可能会成功:

SELECT 
    country_id, 
    COUNT(*) OVER (country_id) 
    ((COUNT(*) OVER (country_id)) * 100) / COUNT(*) OVER () )::decimal) as percent
FROM 
    users
WHERE
    cond1 = true AND cond2 = true AND cond3 = true

答案 2 :(得分:1)

这确实很老,但是上面的两个选择示例都不起作用,或者过于复杂。

SELECT
    country_id,
    COUNT(*),
    (COUNT(*) / (SUM(COUNT(*)) OVER() )) * 100
FROM
    users
WHERE
    cond1 = true AND cond2 = true AND cond3 = true
GROUP BY 
    country_id

第二个计数不是必需的,它只是用于调试以确保获得正确的结果。诀窍是在记录集的COUNT之上的SUM。

希望这对某人有帮助。

此外,如果有人想在Django中执行此操作,只需破解一个聚合即可:

class PercentageOverRecordCount(Aggregate):
    function = 'OVER'
    template = '(COUNT(*) / (SUM(COUNT(*)) OVER() )) * 100'

    def __init__(self, expression, **extra):
        super().__init__(
            expression,
            output_field=DecimalField(),
            **extra
        )

现在可以在注释中使用

答案 3 :(得分:0)

使用上一个PostgreSQL版本,查询可以是下一个:

CREATE TABLE users (
    id serial,
    country_id int
);

INSERT INTO users (country_id) VALUES (1),(1),(1),(2),(2),(3);

select distinct
    country_id,
    round(
        ((COUNT(*) OVER (partition by country_id )) * 100)::numeric 
        / COUNT(*) OVER () 
    , 2) as percent
from users 
order by country_id
;

SQLize.online上的结果

+============+=========+
| country_id | percent |
+============+=========+
| 1          | 50.00   |
+------------+---------+
| 2          | 33.33   |
+------------+---------+
| 3          | 16.67   |
+------------+---------+