识别重复值-Google BigQuery

时间:2020-07-14 13:27:12

标签: google-bigquery

我只是试图在BigQuery中识别重复值。

我的代码如下:

SELECT
  address,
  title_1,
  COUNT(*)
FROM
  `target.querytable`
GROUP BY
  1,2
HAVING
  COUNT (*) > 1

我正在尝试在title_1字段中标识重复记录,并从地址栏中选择其对应的URL以及重复的总和。理想情况下,输出应如下所示:

enter image description here

2 个答案:

答案 0 :(得分:1)

以下是用于BigQuery标准SQL

#standardSQL
SELECT * FROM (
  SELECT *, COUNT(1) OVER(PARTITION BY title_1) dup_count
  FROM `target.querytable`
)
WHERE dup_count > 1

答案 1 :(得分:0)

如果您希望识别重复项,请尝试使用分析功能

您可以在对您来说唯一的列分区上使用ROW_NUMBER(),例如:ROW_NUMBER()OVER(PARTITION BY COLUMN1,COLUMN2 ORDER BY COLUMN1)。行号> 1的每个结果都是重复项。