灵活的运行窗口可对时间范围内的条目进行计数

时间:2019-04-17 16:26:00

标签: sql azure join time-series sql-data-warehouse

我在现场有一些设备,通过GSM时不时断开连接来发送数据。由于磁盘空间有限,因此我倾向于在没有连接的时间段内丢失一些数据,因此我希望评估待处理数据的数量以了解情况。

如果我将服务器中的表缩小为所需的列,则看起来像这样:

Declare @table  as table( 
timestamp datetime, 
lastchanged datetime )
INSERT INTO @table
VALUES 
('2019-04-01 12:27:23', '2019-04-01 12:26:17'),
('2019-04-01 12:27:23', '2019-04-01 12:25:47'),
('2019-04-01 12:27:23', '2019-04-01 12:26:17'),
('2019-04-01 12:27:23', '2019-04-01 12:26:03'),
('2019-04-01 12:27:23', '2019-04-01 12:26:20'),
('2019-04-01 12:28:23', '2019-04-01 12:25:52'),
('2019-04-01 12:28:23', '2019-04-01 12:26:22'),
('2019-04-01 12:28:23', '2019-04-01 12:26:18'),
('2019-04-01 12:28:23', '2019-04-01 12:25:54'),
('2019-04-01 12:29:23', '2019-04-01 12:25:47'),
('2019-04-01 12:29:23', '2019-04-01 12:26:17'),
('2019-04-01 12:29:23', '2019-04-01 12:25:47'),
('2019-04-01 12:29:23', '2019-04-01 12:25:45'),
('2019-04-01 12:30:23', '2019-04-01 12:26:17'),
('2019-04-01 12:30:23', '2019-04-01 12:25:47'),
('2019-04-01 12:30:23', '2019-04-01 12:26:17'),
('2019-04-01 12:31:23', '2019-04-01 12:26:03'),
('2019-04-01 12:31:23', '2019-04-01 12:26:20'),
('2019-04-01 12:31:23', '2019-04-01 12:25:52'),
('2019-04-01 12:31:23', '2019-04-01 12:26:22'),
('2019-04-01 12:31:23', '2019-04-01 12:26:18'),
('2019-04-01 12:31:23', '2019-04-01 12:25:54'),
('2019-04-01 12:32:23', '2019-04-01 12:25:47'),
('2019-04-01 12:32:23', '2019-04-01 12:26:17'),
('2019-04-01 12:32:23', '2019-04-01 12:25:47'),
('2019-04-01 12:32:23', '2019-04-01 12:25:45');

因为时间戳(第一列)的值是在服务器上创建的,而最后更改(第二列)是设备的时间戳,所以区别显然是发送过程的延迟。

从设备中的每个传感器中,我都有一个单独的条目,因此我只需要对行进行计数就可以了解在特定时间范围内设备上存储了多少个数据点(这取决于设备的行为)。设备)。

现在,我想按时间戳分组以评估每个时间戳,已经创建了多少个数据集,但到目前为止还没有到达服务器。

因此,对于每个时间戳,我想知道数据集中的行数,这些行在将来具有时间戳,但在过去发生了最后一次更改。

由于我的数据集非常大,所以我希望避免任何获取。

是的,这不应该是实时分析,我只需要它来了解设备的行为并调整一些参数即可。

我已经尝试过:

SELECT
    A.timestamp,
    COUNT(case when (A.timestamp < B.timestamp AND A.timestamp > B.lastchanged  ) then 1 else null end) AS CountPending
FROM @table A, @table B
GROUP BY A.timestamp
ORDER BY A.timestamp

,并认为CTE和子查询将无济于事,因为我需要一步一步进行过滤和计数。而且据我了解,SQL中运行的经典窗口只需要为窗口范围输入固定数量的条目,但是在我的数据集中,这个数字根本不是常数。

应用上面的示例,结果就是错误的:

2019-04-01 12:27:23.000 105
2019-04-01 12:28:23.000 68
2019-04-01 12:29:23.000 52
2019-04-01 12:30:23.000 30
2019-04-01 12:31:23.000 24
2019-04-01 12:32:23.000 0

2 个答案:

答案 0 :(得分:0)

作为对我自己问题的可能解答,我想显示一个fetch-Option,它可以工作并产生我想要的输出。但是由于我需要在Azure DateWarehouse上工作,因此无法以本机方式进行获取。当我将表作为外部资源集成到Azure上的经典SQL Server上并使用这种方式进行获取时,它需要9分钟才能存储8万行,并且该行中有391个不同的时间戳。因此,这不是一个好选择。

但是,一个可行的解决方案看起来像(我专注于一天范围和一个ID只是为了减少数据量。)

CREATE TABLE #st 
(
    [timestamp]   DATETIME,
    CountPending  INT
);

DECLARE
    @timestamp      DATETIME,
    @CountPending   INT = 0,
    @ID             INT,
    @Start          DATETIME,
    @Stop           DATETIME;

SET @troID = 127
SET @Start = CAST('2019-04-01T00:00:00' AS DATETIME)
SET @Stop = CAST('2019-04-02T00:00:00' AS DATETIME)

DECLARE c CURSOR
    LOCAL STATIC FORWARD_ONLY READ_ONLY
    FOR
    SELECT DISTINCT timestamp
    FROM test.SensorData
    WHERE @ID = @ID AND timestamp BETWEEN @Start AND @Stop;

OPEN c;

FETCH NEXT FROM c INTO @timestamp;

WHILE @@FETCH_STATUS = 0
BEGIN

    SET @CountPending = (
        SELECT COUNT(*)
        FROM test.SensorData
        WHERE troID = @troID AND 
            timestamp BETWEEN @Start AND @Stop AND 
            @timestamp < timestamp AND @timestamp > lastchanged)

    INSERT #st([timestamp], CountPending)
        SELECT @timestamp, @CountPending;

    FETCH NEXT FROM c INTO @timestamp;
END

CLOSE c;
DEALLOCATE c;

SELECT [timestamp], CountPending
    FROM #st
    ORDER BY [timestamp]; 

答案 1 :(得分:0)

这应转换为子查询,如下所示:

SELECT a.troID, a.timestamp, MAX(x.c)
FROM test.SensorData a
    CROSS APPLY
        (
        SELECT COUNT(*) c
        FROM test.SensorData b
        WHERE a.troID = b.troID
          AND a.timestamp < b.timestamp 
          AND a.timestamp > b.lastchanged
        ) x
GROUP BY a.troID, a.timestamp

我想在troId上进行哈希处理可能会有所帮助,但需要更多地了解您的数据,分布和数量。