我试图在Vertica中找到熊猫风格的函数LOCF,我发现有last_value和first_value,但是我的数据不是他们想要的格式:
date myValue wanted
20171201 NA NA
20180101 10 10
20180102 NA 10
20180103 NA 10
20180105 4 4
20180106 6 6
20180108 NA 6
20180202 7 7
如果数据采用以下格式,则我可以在其中将first_value / last_value用于LOCF
date myValue myPartition
20171201 NA 0
20180101 10 1
20180102 NA 1
20180103 NA 1
20180105 4 2
20180106 6 3
20180108 NA 3
20180202 7 4
我可以使用的
SELECT date, myValue,
LAST_VALUE(myValue) OVER (PARTITION BY myPartition ORDER BY date ASC) AS wanted
FROM myDataAbove
其中一种方法是创建分区以使用LAST_VALUE来实现LOCF功能。否则,我们可以尝试直接为Vertica查找LOCF函数。
为Vertica标记LOCF的最便捷方法是什么?
答案 0 :(得分:1)
您只可以计算直到每个点的非'NA'
值的数量:
select t.*,
sum(case when myvalue <> 'NA' then 1 else 0 end) over (order by date) as myPartition
from t;
如果该列确实存储为数字,并且'NA'
是NULL
,则需要NOT NULL
。
答案 1 :(得分:0)
我会使用:
myvalue
... 像这样:
WITH input(dt, myvalue,wanted,mypartition) AS (
SELECT DATE '2017-12-01',NULL::INT,NULL::INT,0
UNION ALL SELECT DATE '2018-01-01',10 ,10 ,1
UNION ALL SELECT DATE '2018-01-02',NULL::INT,10 ,1
UNION ALL SELECT DATE '2018-01-03',NULL::INT,10 ,1
UNION ALL SELECT DATE '2018-01-05',4 ,4 ,2
UNION ALL SELECT DATE '2018-01-06',6 ,6 ,3
UNION ALL SELECT DATE '2018-01-08',NULL::INT,6 ,3
UNION ALL SELECT DATE '2018-02-02',7 ,7 ,4
)
SELECT
dt
, myvalue
, LAST_VALUE(myvalue IGNORE NULLS) OVER(ORDER BY dt) AS val_gen
, wanted
, CONDITIONAL_TRUE_EVENT(myvalue IS NOT NULL) OVER(ORDER BY dt) AS part_gen
, mypartition
FROM input;
Output:
dt |myvalue|val_gen|wanted|part_gen|mypartition
2017-12-01|(null) |(null) |(null)| 0| 0
2018-01-01| 10| 10| 10| 1| 1
2018-01-02|(null) | 10| 10| 1| 1
2018-01-03|(null) | 10| 10| 1| 1
2018-01-05| 4| 4| 4| 2| 2
2018-01-06| 6| 6| 6| 3| 3
2018-01-08|(null) | 6| 6| 3| 3
2018-02-02| 7| 7| 7| 4| 4