Question

编辑：见最后的编辑

首先，我在Amazon EMR上使用Spark 1.5.2并在我的postgres数据库中使用Amazon RDS。其次，我是Spark和Hadoop以及MapReduce这个世界的完全新手。

基本上我的问题与这个人一样： java.sql.SQLException: No suitable driver found when loading DataFrame into Spark SQL

所以加载了数据帧，但是当我尝试评估它时（做df.show（），其中df是数据帧）给出了错误：

java.sql.SQLException: No suitable driver found for jdbc:postgresql://mypostgres.cvglvlp29krt.eu-west-1.rds.amazonaws.com:5432/mydb

我应该注意到我开始像这样的火花：

spark-shell --driver-class-path /home/hadoop/postgresql-9.4.1207.jre7.jar

解决方案建议将jar传递到工作节点并以某种方式在它们上设置类路径，我真的不明白该怎么做。但后来他们说显然这个问题已经在Spark 1.4中修复了，我使用的是1.5.2，并且仍然存在这个问题，那么发生了什么？

编辑：看起来我解决了这个问题，但是我仍然不太明白为什么会这样，而上面的事情却没有，所以我想我现在的问题是为什么这样做：

spark-shell --driver-class-path /home/hadoop/postgresql-9.4.1207.jre7.jar --conf spark.driver.extraClassPath=/home/hadoop/postgresql-9.4.1207.jre7.jar --jars /home/hadoop/postgresql-9.4.1207.jre7.jar

解决问题？我只是将路径作为参数添加到它看起来的更多标志中。

Answer 1

spark-shell --driver-class-path .... --jars ...有效，因为--jars中列出的所有jar文件都会自动分布在群集上。

或者你可以使用

spark-shell --packages  org.postgresql:postgresql:9.4.1207.jre7

并指定驱动程序类作为DataFrameReader / DataFrameWriter

的选项

val df = sqlContext.read.format("jdbc").options(Map(
  "url" -> url, "dbtable" -> table, "driver" -> "org.postgresql.Driver"
)).load()

甚至手动将所需的罐子复制到工作人员并将其放在CLASSPATH的某处。

Spark无法找到postgres jdbc驱动程序

1 个答案: