我有一个数据集,它基本上由作业批次列表,每个批次中包含的作业数量以及每个作业批次的持续时间组成。这是一个示例数据集:
CREATE TABLE test_data
(
batch_id NUMBER,
job_count NUMBER,
duration NUMBER
);
INSERT INTO test_data VALUES (1, 37, 9);
INSERT INTO test_data VALUES (2, 47, 4);
INSERT INTO test_data VALUES (3, 66, 6);
INSERT INTO test_data VALUES (4, 46, 6);
INSERT INTO test_data VALUES (5, 54, 1);
INSERT INTO test_data VALUES (6, 35, 1);
INSERT INTO test_data VALUES (7, 55, 9);
INSERT INTO test_data VALUES (8, 82, 7);
INSERT INTO test_data VALUES (9, 12, 9);
INSERT INTO test_data VALUES (10, 52, 4);
INSERT INTO test_data VALUES (11, 3, 9);
INSERT INTO test_data VALUES (12, 90, 2);
现在,我想计算持续时间字段的一些百分位数。通常,这可以通过以下方式完成:
SELECT
PERCENTILE_DISC( 0.75 )
WITHIN GROUP (ORDER BY duration ASC)
AS third_quartile
FROM
test_data;
(给出9的结果)
我的问题是,我们不希望根据批次获得百分位数,我希望根据个人工作获得这些百分位数。通过生成job_count的运行总计,我可以很容易地手动解决这个问题:
SELECT
batch_id,
job_count,
SUM(
job_count
)
OVER (
ORDER BY duration
ROWS UNBOUNDED PRECEDING
)
AS total_jobs,
duration
FROM
test_data
ORDER BY
duration ASC;
BATCH_ID JOB_COUNT TOTAL_JOBS DURATION
6 35 35 1
5 54 89 1
12 90 179 2
2 47 226 4
10 52 278 4
3 66 344 6
4 46 390 6
8 82 472 7
9 12 484 9
1 37 521 9
11 3 524 9
7 55 579 9
由于我有579个工作,那么第75个百分位将是工作434.查看上面的结果集,其对应的持续时间为7,与标准函数的作用不同。
基本上,我想将批处理中的每个作业视为单独的观察,并根据这些来确定百分位数,而不是批次。
有没有相对简单的方法来实现这个目标?
答案 0 :(得分:3)
我认为这是“加权”百分位数。我不知道在Oracle中是否存在内置的分析函数,但它很容易计算。而你正在那里。
另外一个想法是计算作业总数,然后使用算术来选择所需的值。对于第75百分位数,该值是最小持续时间,使得累计工作数大于作业总数的0.75倍。
以下是SQL中的示例:
select pcs.percentile, min(case when cumjobs >= totjobs * percentile then duration end)
from (SELECT batch_id, job_count,
SUM(job_count) OVER (ORDER BY duration) as cumjobs,
sum(job_count) over () as totjobs,
duration
FROM test_data
) t cross join
(select 0.25 as percentile from dual union all
select 0.5 from dual union all
select 0.75 from dual
) pcs
group by pcs.percentile;
此示例为您提供每个值在其自己行上的百分位值(以及作为三个不同百分位数的额外奖励)。如果您想要每行的值,则需要加入原始表格。
答案 1 :(得分:0)
行。我想我有你的答案。想法是我的。实施借鉴this Ask Tom article
SELECT PERCENTILE_DISC( 0.75 )
WITHIN GROUP (ORDER BY duration ASC)
AS third_quartile
FROM(
with data as
(select level l
from dual, (select max(job_count) max_jobs from test_data)
connect by level <= max_jobs
)
select *
from test_data, data
where l <= job_count
--ORDER BY duration, batch_id
) inner
;
这是SQL Fiddle。