如何从pyspark连接到Teradata?

时间:2016-10-24 15:13:06

标签: hadoop apache-spark pyspark teradata spark-dataframe

我正在尝试从Pyspark连接到Teradata和DB2。

我正在使用以下罐子:

tdgssconfig-15.10.00.14.jar
Teradata的连接器-1.4.1.jar
terajdbc4-15.10.00.14.jar &安培; db2jcc4.jar

连接字符串:

df1 = sqlContext.load(source="jdbc", driver="com.teradata.jdbc.TeraDriver", url=db_url,user="db_user",TMODE="TERA",password="db_pwd",dbtable="U114473.EMPLOYEE")

df = sqlContext.read.format('jdbc').options(url='jdbc:db2://10.123.321.9:50000/DB599641',user='******',password='*****',driver='com.ibm.db2.jcc.DB2Driver', dbtable='DSN1.EMPLOYEE')

两者都给我发现了驱动程序错误。

我们可以为pyspark使用JDBC驱动程序吗?

1 个答案:

答案 0 :(得分:0)

就像詹姆斯托宾说的那样,当你开始你的pyspark sessioni或者把你的py提交给spark时,使用pyspark2 --jars / jarpath选项