Question

我有一个PostgreSQL数据库表，其结构如下：

设备ID varchar
Pos_X（int）
Pos_Y（int）

这个表基本上包含了很多设备的二维航路点数据。现在我想设计一个减少输出中坐标数量的查询。它应聚合附近的坐标（对于某个x，y阈值）一个例子：

第1行：DEVICE1; 603; 1205

第2行：DEVICE1; 604; 1204

如果阈值为5，则应该聚合这两行，因为方差小于5。知道如何在PostgreSQL或SQL中做到这一点吗？

Answer 1

将经常被忽视的内置函数width_bucket()与您的聚合结合使用：

如果您的坐标从0到2000运行，并且您希望将5到单点的正方形内的所有内容合并，我会像这样布置一个10（5 * 2）的网格：

SELECT device_id
     , width_bucket(pos_x, 0, 2000, 2000/10) * 10 AS pos_x
     , width_bucket(pos_y, 0, 2000, 2000/10) * 10 AS pos_y
     , count(*) AS ct -- or any other aggregate
FROM   tbl
GROUP  BY 1,2,3
ORDER  BY 1,2,3;

要最小化错误，您可以GROUP BY显示网格，但保存实际平均坐标：

SELECT device_id
     , avg(pos_x)::int AS pos_x   -- save actual averages to minimize error
     , avg(pos_y)::int AS pos_y   -- cast if you need to
     , count(*)        AS ct      -- or any other aggregate
FROM   tbl
GROUP  BY
       device_id
     , width_bucket(pos_x, 0, 2000, 2000/10) * 10  -- aggregate by grid
     , width_bucket(pos_y, 0, 2000, 2000/10) * 10
ORDER  BY 1,2,3;

sqlfiddle demonstrating both alongside.

嗯，这个特例可能更简单：

...
GROUP  BY
       device_id
     , (pos_x / 10) * 10          -- truncates last digit of an integer
     , (pos_y / 10) * 10
...

但这只是因为10的演示网格大小方便地匹配十进制系统。尝试使用网格大小17或其他东西......

扩展到时间戳

您可以使用extract()将此方法扩展为涵盖date和timestamp值，方法是将它们转换为unix纪元（自1970-1-1'以来的秒数）。

SELECT extract(epoch FROM '2012-10-01 21:06:38+02'::timestamptz);

完成后，将结果转换回timestamp with time zone：

SELECT timestamptz 'epoch' + 1349118398 * interval '1s';

或只是to_timestamp()：

SELECT to_timestamp(1349118398);

Answer 2

select [some aggregates] group by (pos_x/5, pos_y/5);

根据您需要的汇总数量而不是5，您可以拥有任何数字/

在PostgreSQL中聚合（x，y）坐标点云

2 个答案:

扩展到时间戳