在数据块中使用sql创建最大日期函数

时间:2018-07-05 21:22:10

标签: sql function databricks sql-timestamp

我在视图上使用sql在databricks中编写查询,并希望在多个视图中计算更新时间戳列的最大日期。例如我将表a与表b联接在一起,并且想知道max(a.updt_ts,b.updt_ts)。由于最大功能不能超过一个提到的列,我想创建一个功能。任何帮助是极大的赞赏。 以下是我所拥有的:

CREATE temporary FUNCTION ufnGetMaxDt (@Date1 DATETIME2,@Date2 DATETIME2) 
BEGIN  
    DECLARE @ret   DATETIME2
          , @MinDt datetime2;  

    SET @MinDt = cast('1900-01-01' as datetime2);

    IF (@Date1) is null  SET @Date1 = @MinDt; 
    IF (@Date2) is null  SET @Date2 = @MinDt; 


    SET @ret = CASE When @Date1 >= @Date2
                    Then @Date1
                    else @Date2
                    END; 

     IF (@ret IS NULL)   
        SET @ret = @MinDt;  -- Dummy date
    RETURN @ret;  
END
GO

1 个答案:

答案 0 :(得分:0)

您可以只使用greatest吗?例如

SELECT *, GREATEST( date1, date2 ) xmax 
FROM tmp

还是将它们放入数组中,将其爆炸然后最大化?例如这样的东西:

%sql
WITH cte AS
(
SELECT *, EXPLODE( ARRAY( date1, date2 ) ) xmax 
FROM tmp
)
SELECT MAX( xmax )
FROM cte

当您仅可以使用greatest时似乎有点多余吗?值得一读的是Spark SQL内置函数的列表。您不必全都记住它们,但至少如果您知道有可能,那么它很有用:

https://spark.apache.org/docs/2.3.0/api/sql/index.html