Question

我只是试图在BigQuery中识别重复值。

我的代码如下：

SELECT
  address,
  title_1,
  COUNT(*)
FROM
  `target.querytable`
GROUP BY
  1,2
HAVING
  COUNT (*) > 1

我正在尝试在title_1字段中标识重复记录，并从地址栏中选择其对应的URL以及重复的总和。理想情况下，输出应如下所示：

Answer 1

以下是用于BigQuery标准SQL

#standardSQL
SELECT * FROM (
  SELECT *, COUNT(1) OVER(PARTITION BY title_1) dup_count
  FROM `target.querytable`
)
WHERE dup_count > 1

Answer 2

如果您希望识别重复项，请尝试使用分析功能

您可以在对您来说唯一的列分区上使用ROW_NUMBER（），例如：ROW_NUMBER（）OVER（PARTITION BY COLUMN1，COLUMN2 ORDER BY COLUMN1）。行号> 1的每个结果都是重复项。