通过多列从GBQ表中删除重复项的最有效方法

时间:2019-11-22 13:07:17

标签: function google-bigquery duplicates analytics

enter image description here

我有下表(见上文)。

通过appId和clientId删除重复项的最有效方法是什么,因此结果表仅包含DIFF最小的那些行

例如:260848应该以yandex作为来源

谢谢!

1 个答案:

答案 0 :(得分:1)

以下是用于BigQuery标准SQL

#standardSQL
SELECT AS VALUE ARRAY_AGG(t ORDER BY DIFF LIMIT 1)[OFFSET(0)]
FROM `project.dataset.table` t
GROUP BY appId, clientId