如何查询Google BigQuery表并根据列的子集删除重复项?

时间:2018-06-06 14:18:41

标签: sql google-bigquery

我有一个连接两个Google桌面的查询,并生成一个包含6列的表格abcdef)。接下来,我将该表移动到谷歌桶,然后将该谷歌桶下载到一堆CSV。最后,我将这些CVS插入到postgres数据库表中,该表有2个主键,ab

问题是google表中没有主键,而且有些行只有一个不同的值,所以我需要生成a和{{1}中没有重复的查询结果}}。我试过以下......

b

...但是,如果SELECT DISTINCT A.a, A.b, A.c AS c, A.d AS d, B.c AS e, B.d AS f FROM `my_proj.my_table_A` A FULL OUTER JOIN `my_proj.my_table_B` B ON A.a = B.a AND A.b = B.b 不同,它仍会允许ab重复。我只需要一个重复的行,无论哪个都没关系。

如何仅根据fa删除重复项?

2 个答案:

答案 0 :(得分:3)

# special treatment to get expandable type Set-ItemProperty HKCU:\Environment 'PATH' '%M2_HOME%\bin;C:\Users\UID20852\AppData\Local\Microsoft\WindowsApps;' -Type ExpandString [System.Environment]::SetEnvironmentVariable('M2_HOME', 'C:\dev\app\apache-maven-3.3.9', 'User') GROUP BY

一起使用
ANY_VALUE

答案 1 :(得分:0)

此帖子可能与帖子[1]重复。投票最多的答案没有使用GROUP BY子句,这是您在BigQuery SQL中要寻找的。

[1] BigQuery DeDuplication on two columns as unique key