编辑:见最后的编辑
首先,我在Amazon EMR上使用Spark 1.5.2并在我的postgres数据库中使用Amazon RDS。其次,我是Spark和Hadoop以及MapReduce这个世界的完全新手。
基本上我的问题与这个人一样: java.sql.SQLException: No suitable driver found when loading DataFrame into Spark SQL
所以加载了数据帧,但是当我尝试评估它时(做df.show(),其中df是数据帧)给出了错误:
java.sql.SQLException: No suitable driver found for jdbc:postgresql://mypostgres.cvglvlp29krt.eu-west-1.rds.amazonaws.com:5432/mydb
我应该注意到我开始像这样的火花:
spark-shell --driver-class-path /home/hadoop/postgresql-9.4.1207.jre7.jar
解决方案建议将jar传递到工作节点并以某种方式在它们上设置类路径,我真的不明白该怎么做。但后来他们说显然这个问题已经在Spark 1.4中修复了,我使用的是1.5.2,并且仍然存在这个问题,那么发生了什么?
编辑:看起来我解决了这个问题,但是我仍然不太明白为什么会这样,而上面的事情却没有,所以我想我现在的问题是为什么这样做:spark-shell --driver-class-path /home/hadoop/postgresql-9.4.1207.jre7.jar --conf spark.driver.extraClassPath=/home/hadoop/postgresql-9.4.1207.jre7.jar --jars /home/hadoop/postgresql-9.4.1207.jre7.jar
解决问题?我只是将路径作为参数添加到它看起来的更多标志中。
答案 0 :(得分:6)
spark-shell --driver-class-path .... --jars ...
有效,因为--jars
中列出的所有jar文件都会自动分布在群集上。
或者你可以使用
spark-shell --packages org.postgresql:postgresql:9.4.1207.jre7
并指定驱动程序类作为DataFrameReader
/ DataFrameWriter
val df = sqlContext.read.format("jdbc").options(Map(
"url" -> url, "dbtable" -> table, "driver" -> "org.postgresql.Driver"
)).load()
甚至手动将所需的罐子复制到工作人员并将其放在CLASSPATH
的某处。