Question

我有一个连接两个Google桌面的查询，并生成一个包含6列的表格a，b，c，d，e， f）。接下来，我将该表移动到谷歌桶，然后将该谷歌桶下载到一堆CSV。最后，我将这些CVS插入到postgres数据库表中，该表有2个主键，a和b。

问题是google表中没有主键，而且有些行只有一个不同的值，所以我需要生成a和{{1}中没有重复的查询结果}}。我试过以下......

...但是，如果SELECT DISTINCT A.a, A.b, A.c AS c, A.d AS d, B.c AS e, B.d AS f FROM `my_proj.my_table_A` A FULL OUTER JOIN `my_proj.my_table_B` B ON A.a = B.a AND A.b = B.b不同，它仍会允许a和b重复。我只需要一个重复的行，无论哪个都没关系。

如何仅根据f和a删除重复项？

Answer 1

将# special treatment to get expandable type Set-ItemProperty HKCU:\Environment 'PATH' '%M2_HOME%\bin;C:\Users\UID20852\AppData\Local\Microsoft\WindowsApps;' -Type ExpandString [System.Environment]::SetEnvironmentVariable('M2_HOME', 'C:\dev\app\apache-maven-3.3.9', 'User')与GROUP BY：

一起使用

ANY_VALUE

Answer 2

此帖子可能与帖子[1]重复。投票最多的答案没有使用GROUP BY子句，这是您在BigQuery SQL中要寻找的。

[1] BigQuery DeDuplication on two columns as unique key。

如何查询Google BigQuery表并根据列的子集删除重复项？

2 个答案: