java.sql.SQLException:将DataFrame加载到Spark SQL时找不到合适的驱动程序

时间:2015-04-28 23:35:31

标签: scala jdbc apache-spark apache-spark-sql

我在尝试将JDBC DataFrame加载到Spark SQL时遇到了非常奇怪的问题。

我已经在我的笔记本电脑上尝试了几个Spark群集 - YARN,独立群集和伪分布式模式。它在Spark 1.3.0和1.3.1上都可以重现。 spark-shell和使用spark-submit执行代码时都会出现此问题。我试过MySQL& MS SQL JDBC驱动程序没有成功。

考虑以下示例:

val driver = "com.mysql.jdbc.Driver"
val url = "jdbc:mysql://localhost:3306/test"

val t1 = {
  sqlContext.load("jdbc", Map(
    "url" -> url,
    "driver" -> driver,
    "dbtable" -> "t1",
    "partitionColumn" -> "id",
    "lowerBound" -> "0",
    "upperBound" -> "100",
    "numPartitions" -> "50"
  ))
}

到目前为止,架构得到了妥善解决:

t1: org.apache.spark.sql.DataFrame = [id: int, name: string]

但是当我评估DataFrame时:

t1.take(1)

发生以下异常:

15/04/29 01:56:44 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 192.168.1.42): java.sql.SQLException: No suitable driver found for jdbc:mysql://<hostname>:3306/test
    at java.sql.DriverManager.getConnection(DriverManager.java:689)
    at java.sql.DriverManager.getConnection(DriverManager.java:270)
    at org.apache.spark.sql.jdbc.JDBCRDD$$anonfun$getConnector$1.apply(JDBCRDD.scala:158)
    at org.apache.spark.sql.jdbc.JDBCRDD$$anonfun$getConnector$1.apply(JDBCRDD.scala:150)
    at org.apache.spark.sql.jdbc.JDBCRDD$$anon$1.<init>(JDBCRDD.scala:317)
    at org.apache.spark.sql.jdbc.JDBCRDD.compute(JDBCRDD.scala:309)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:244)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:244)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61)
    at org.apache.spark.scheduler.Task.run(Task.scala:64)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:203)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

当我尝试在executor上打开JDBC连接时:

import java.sql.DriverManager

sc.parallelize(0 until 2, 2).map { i =>
  Class.forName(driver)
  val conn = DriverManager.getConnection(url)
  conn.close()
  i
}.collect()

它完美无缺:

res1: Array[Int] = Array(0, 1)

当我在本地Spark上运行相同的代码时,它也可以完美地运行:

scala> t1.take(1)
...
res0: Array[org.apache.spark.sql.Row] = Array([1,one])

我使用预先构建的支持Hadoop 2.4的Spark。

重现问题的最简单方法是使用start-all.sh脚本以伪分布式模式启动Spark并运行以下命令:

/path/to/spark-shell --master spark://<hostname>:7077 --jars /path/to/mysql-connector-java-5.1.35.jar --driver-class-path /path/to/mysql-connector-java-5.1.35.jar

有没有办法解决这个问题?这看起来像一个严重的问题,所以谷歌搜索在这里没有帮助,这很奇怪。

4 个答案:

答案 0 :(得分:4)

显然最近报道了这个问题:

https://issues.apache.org/jira/browse/SPARK-6913

问题出在java.sql.DriverManager中,除了bootstrap ClassLoader之外,没有看到由ClassLoader加载的驱动程序。

作为临时解决方法,可以添加所需的驱动程序来引导执行程序的类路径。

更新:此拉取请求可解决问题:https://github.com/apache/spark/pull/5782

更新2:修复程序合并到Spark 1.4

答案 1 :(得分:3)

用于将数据写入MySQL

在spark 1.4.0中,你必须在写入之前加载MySQL,因为它在加载函数上加载驱动程序而在写入函数上加载。 我们必须在每个工作节点上放置jar,并在每个节点上的spark-defaults.conf文件中设置路径。 此问题已在spark 1.5.0

中修复

https://issues.apache.org/jira/browse/SPARK-10036

答案 2 :(得分:1)

我们被困在Spark 1.3(Cloudera 5.4)上,所以我发现这个问题和Wildfire的答案很有帮助,因为它让我不再把头撞在墙上。

以为我会分享我们如何将驱动程序放入引导类路径:我们只是将其复制到/opt/cloudera/parcels/CDH-5.4.0-1.cdh5.4.0.p0.27/lib/hive/lib在所有节点上。

答案 3 :(得分:0)

我正在使用带有SQL服务器的spark-1.6.1,仍然遇到同样的问题。我必须将库(sqljdbc-4.0.jar)添加到实例中的lib和conf/spark-dfault.conf文件中的下一行。

  

spark.driver.extraClassPath lib / sqljdbc-4.0.jar