将特定的dplyr函数distinct()
应用于SQL数据库中的表时,出现以下错误。
tbl(P0_MAU_3N_V, "D_QNO_MTYPE") %>% distinct()
#> Error: <SQL> 'SELECT DISTINCT TOP 11 * FROM "D_QNO_MTYPE"'
#> nanodbc/nanodbc.cpp:1700: HY222: [Teradata][ODBC Teradata Driver]
#> [Teradata Database](-3419)
#> TOP N Syntax error: Top N option is not supported with DISTINCT option.
如果我检查查询,则会得到:
tbl(P0_MAU_3N_V, "D_QNO_MTYPE") %>% distinct() %>% show_query()
#> <SQL>
#> SELECT DISTINCT *
#> FROM "D_QNO_MTYPE"
我猜想这是SQL语法中的一种禁止。在SQL数据库上使用dplyr::distinct()
的最佳方法是什么?有没有一种整洁的方法可以做到这一点,还是应该是某种直接SQL查询?
编辑
@akrun很抱歉,但是我不知道如何制作复制品(举一个例子)。我希望这会有所帮助:
DBI::dbGetInfo(P0_MAU_3N_V)
#> $dbname
#> [1] "P0_MAU_3N_V"
#>
#> $dbms.name
#> [1] "Teradata"
#>
#> $db.version
#> [1] "15.10.0704 15.10.07.04"
#>
#> $username
#> [1] "redacted"
#>
#> $host
#> [1] ""
#>
#> $port
#> [1] ""
#>
#> $sourcename
#> [1] ""
#>
#> $servername
#> [1] "redacted"
#>
#> $drivername
#> [1] "tdataodbc_sb64.dll"
#>
#> $odbc.version
#> [1] "03.80.0000"
#>
#> $driver.version
#> [1] "16.20.00.054"
#>
#> $odbcdriver.version
#> [1] "03.80"
#>
#> $supports.transactions
#> [1] TRUE
#>
#> attr(,"class")
#> [1] "Teradata" "driver_info" "list"
答案 0 :(得分:1)
TOP N
具有很多限制,并且与DISTINCT
一起使用就是其中之一。我不确定dplyr
的语法,但是如果可以运行一些原始SQL,如果尝试使用像这样的子查询来分隔运算符,该怎么办:
SELECT TOP 11 *
FROM (
SELECT DISTINCT *
FROM "D_QNO_MTYPE"
) src
如果您没有太多的列,另一种选择是使用GROUP BY
获得一组唯一的行:
SELECT col1, col2 ... -- list of columns to apply DISTINCT to
FROM "D_QNO_TYPE"
GROUP BY col1, col2 ... -- same column list in the SELECT
QUALIFY ROW_NUMBER() OVER() <=11 -- Get first 11 rows (i.e. TOP 11)
首先应用GROUP BY
,然后再应用QUALIFY
。如果要指定列的顺序,只需将列列表放在OVER()
子句中。我不确定是否可以将TOP
与GROUP BY
结合使用,但是您也可以尝试一下,看看是否可行。