我只是试图在BigQuery中识别重复值。
我的代码如下:
SELECT
address,
title_1,
COUNT(*)
FROM
`target.querytable`
GROUP BY
1,2
HAVING
COUNT (*) > 1
我正在尝试在title_1字段中标识重复记录,并从地址栏中选择其对应的URL以及重复的总和。理想情况下,输出应如下所示:
答案 0 :(得分:1)
以下是用于BigQuery标准SQL
#standardSQL
SELECT * FROM (
SELECT *, COUNT(1) OVER(PARTITION BY title_1) dup_count
FROM `target.querytable`
)
WHERE dup_count > 1
答案 1 :(得分:0)
如果您希望识别重复项,请尝试使用分析功能
您可以在对您来说唯一的列分区上使用ROW_NUMBER(),例如:ROW_NUMBER()OVER(PARTITION BY COLUMN1,COLUMN2 ORDER BY COLUMN1)。行号> 1的每个结果都是重复项。