Question

我想从impala表中获取子查询作为一个数据集。

这样的代码：

String subQuery = "(select to_timestamp(unix_timestamp(now())) as ts from my_table) t"
Dataset<Row> ds = spark.read().jdbc(myImpalaUrl, subQuery, prop);

但是结果是错误的：

Caused by: java.sql.SQLDataException: [Cloudera][JDBC](10140) Error converting value to Timestamp.

我可以使用unix_timestamp函数，但是to_timestmap失败了，为什么？

我发现org.apache.spark.sql.execution.datasources.jdbc.JDBC.compute()中的代码存在一些问题：

sqlText = s"SELECT $columnList FROM ${options.table} $myWhereClause"

$columList包含"就像"col_name"一样，当我删除"时，它可以正常工作。

Answer 1

我通过添加方言解决了这个问题，默认方言会将""添加到列名

 JdbcDialect ImpalaDialect = new JdbcDialect(){
        @Override
        public boolean canHandle(String url) {
            return url.startsWith("jdbc:impala") || url.contains("impala");
        }
        @Override
        public String quoteIdentifier(String colName) {
            return colName;
        }
    };

    JdbcDialects.registerDialect(ImpalaDialect);

spark jdbc api无法使用内置功能

1 个答案: