Question

如何只选择两个数组之间的非匹配元素。

示例：

base_array [12,3,5,7,8]
temp_array [3,7,8]

所以在这里我要比较两个数组并从基础数组中删除匹配的元素。

现在base_array应该像[12,5]

Answer 1

我将使用数组运算符来解决这个问题。

select array(select unnest(:arr1) except select unnest(:arr2));

如果：arr1和：arr2不相交，则使用array_agg（）会导致null。

Answer 2

select array_agg(elements)
from (
  select unnest(array[12,3,5,7,8])
  except
  select unnest(array[3,7,8])
) t (elements)

Answer 3

让我们尝试不使用（）/ except：

EXPLAIN ANALYZE SELECT array(select unnest(ARRAY[1,2,3,n]) EXCEPT SELECT unnest(ARRAY[2,3,4,n])) FROM generate_series( 1,10000 ) n;
 Function Scan on generate_series n  (cost=0.00..62.50 rows=1000 width=4) (actual time=1.373..140.969 rows=10000 loops=1)
   SubPlan 1
     ->  HashSetOp Except  (cost=0.00..0.05 rows=1 width=0) (actual time=0.011..0.011 rows=1 loops=10000)
           ->  Append  (cost=0.00..0.04 rows=2 width=0) (actual time=0.002..0.008 rows=8 loops=10000)
                 ->  Subquery Scan "*SELECT* 1"  (cost=0.00..0.02 rows=1 width=0) (actual time=0.002..0.003 rows=4 loops=10000)
                       ->  Result  (cost=0.00..0.01 rows=1 width=0) (actual time=0.001..0.002 rows=4 loops=10000)
                 ->  Subquery Scan "*SELECT* 2"  (cost=0.00..0.02 rows=1 width=0) (actual time=0.001..0.003 rows=4 loops=10000)
                       ->  Result  (cost=0.00..0.01 rows=1 width=0) (actual time=0.001..0.002 rows=4 loops=10000)
 Total runtime: 142.531 ms

和intarray特别经营者：

EXPLAIN ANALYZE SELECT ARRAY[1,2,3,n] - ARRAY[2,3,4,n] FROM generate_series( 1,10000 ) n;
 Function Scan on generate_series n  (cost=0.00..15.00 rows=1000 width=4) (actual time=1.338..11.381 rows=10000 loops=1)
 Total runtime: 12.306 ms

基线：

EXPLAIN ANALYZE SELECT ARRAY[1,2,3,n], ARRAY[2,3,4,n] FROM generate_series( 1,10000 ) n;
 Function Scan on generate_series n  (cost=0.00..12.50 rows=1000 width=4) (actual time=1.357..7.139 rows=10000 loops=1)
 Total runtime: 8.071 ms

每个阵列交叉点的时间：

intarray -           :  0.4 µs
unnest() / intersect : 13.4 µs

当然，intarray的方式要快得多，但我发现postgres可以在13.4μs中删除一个依赖子查询（包含一个哈希和其他东西），这真是太棒了......

Answer 4

我构建了一组功能来专门处理这些类型的问题：https://github.com/JDBurnZ/anyarray

最重要的是这些函数适用于所有数据类型，而不是JUST整数，因为intarray仅限于此。

从GitHub加载加载这些SQL文件中定义的函数后，您需要做的就是：

SELECT
  ANYARRAY_DIFF(
    ARRAY[12, 3, 5, 7, 8],
    ARRAY[3, 7, 8]
  )

返回类似于：ARRAY[12, 5]

的内容

如果您还需要返回已排序的值：

SELECT
  ANYARRAY_SORT(
    ANYARRAY_DIFF(
      ARRAY[12, 3, 5, 7, 8],
      ARRAY[3, 7, 8]
    )
  )

准确地返回：ARRAY[5, 12]

Answer 5

contrib/intarray模块提供此功能 - 无论如何都适用于整数数组。对于其他数据类型，您可能必须编写自己的函数（或修改intarray提供的函数）。

Answer 6

我会使用与@a_horse_with_no_name描述的逻辑相同的函数创建一个函数：

CREATE FUNCTION array_subtract(a1 int[], a2 int[]) RETURNS int[] AS $$
DECLARE
    ret int[];
BEGIN
    IF a1 is null OR a2 is null THEN
        return a1;
    END IF;
    SELECT array_agg(e) INTO ret
    FROM (
        SELECT unnest(a1)
        EXCEPT
        SELECT unnest(a2)
    ) AS dt(e);
    RETURN ret;
END;
$$ language plpgsql;

然后您可以使用此函数相应地更改base_array变量：

base_array := array_subtract(base_array, temp_array);

使用@ Denis更快的解决方案，只有SQL，我们可以将通用函数表示为

CREATE FUNCTION array_subtract(anyarray,anyarray) RETURNS anyarray AS $f$
  SELECT array(
    SELECT unnest($1)
    EXCEPT
    SELECT unnest($2)
  )
$f$ language SQL IMMUTABLE;

如何比较两个数组并在postgres中仅选择非匹配元素

6 个答案: