PySpark jdbc谓词错误:Py4JError:调用o108.jdbc时发生错误

时间:2015-11-13 15:56:07

标签: python apache-spark apache-spark-sql pyspark pyspark-sql

我正在尝试在DataFrameReader.jdbc()方法中使用谓词:

df = sqlContext.read.jdbc(
    url="jdbc:db2://bluemix05.bluforcloud.com:50001/BLUDB:user=****;password=****;sslConnection=true;",  
    table="GOSALES.BRANCH",
    predicates=['WHERE BRANCH_CODE=5']
).cache()

但是,我遇到了以下错误:

---------------------------------------------------------------------------
Py4JError                                 Traceback (most recent call last)
...

Py4JError: An error occurred while calling o108.jdbc. Trace:
py4j.Py4JException: Method jdbc([class java.lang.String, class java.lang.String, class [Ljava.lang.Object;, class java.util.Properties]) does not exist

我应该如何在jdbc方法调用中添加谓词?

1 个答案:

答案 0 :(得分:2)

这里至少有两个问题。一个看起来像PySpark的bug,据我所知,已经解决了当前的主人。

另一个问题是你使用的条件。它应该只是'BRANCH_CODE = 5'而不是'WHERE BRANCH_CODE = 5'

最后,如果你只使用一个谓词,将它作为子查询传递更有意义:

df = sqlContext.read.jdbc( 
    url = url,
    table = "(SELECT * FROM GOSALES.BRANCH WHERE BRANCH_CODE=5) AS tmp")

使用predicates的JDBC查询为每个谓词创建一个JDBC分区,因此调整起来要困难得多。更不用说你必须记住可能的重复。