如何从Spark SQLContext

时间:2015-09-25 17:01:56

标签: jdbc apache-spark apache-spark-sql netezza

我有一个Spark实例,我正在尝试连接到现有的Netezza数据仓库应用程序来检索一些数据。

使用SparkSQL的SQLContext,并根据Spark SQL Programming Guide,这可以通过read方法实现。我已经确定我需要使用--jars标志来提供JDBC驱动程序,而不是像文档中那样使用SPARK_CLASSPATH。操作看起来像

// pyspark
df = sqlContext.read.format('jdbc').options( ... ).load()

// spark-shell
val df = sqlContext.read.format("jdbc").options( ... ).load()

我可以找到一些关于使用JDBC连接到Netezza的文档,但不能找到如何正确传递用户名和密码的文档。我需要通过什么“选项”?

1 个答案:

答案 0 :(得分:1)

pyspark

df = sqlContext.read.format('jdbc').options(url='jdbc:netezza://server1:5480/DATABASE', \
    user='KIRK', password='****', dbtable='SCHEMA.MYTABLE', \
    driver='org.netezza.Driver').load()

并在spark-shell

val df = sqlContext.read.format("jdbc").options(Map(
             "url" -> "jdbc:netezza://server1:5480/DATABASE", 
             "user" -> "KIRK", 
             "password" -> "****", 
             "dbtable" -> "SCHEMA.MYTABLE", 
             "driver" -> "org.netezza.Driver")).load()

请注意,Netezza喜欢ALL CAPS中的所有内容。我不知道这是否有必要,但并没有伤害。