我在spark中编写了一个简单的程序,将数据帧写入mySql中的表。
该计划如下:
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.SparkContext._
import org.apache.spark.rdd._
//import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types._
import org.apache.spark.sql.Row;
import java.util.Properties
import java.sql.{ Connection, DriverManager, SQLException }
object MySQLTrial {
def main(args: Array[String]) {
val sparkConf = new SparkConf().setAppName("AnalyseBusStreaming")
val sc = new SparkContext(sparkConf)
val df = sc.parallelize(Array((1, 234), (2, 1233)))
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
val prop = new Properties()
prop.put("user", "admin")
prop.put("password", "admin")
val driver = "com.mysql.jdbc.Driver"
Class.forName(driver)
val dfWriter = df.toDF().write.mode("append")
dfWriter.jdbc("jdbc:mysql://127.0.0.1:3306/IOT_DB", "table1", prop)
}
}
我项目的POM文件如下
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>ggi.bigdata</groupId>
<artifactId>internet_of_things</artifactId>
<version>0.0.1-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-hive_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>5.1.38</version>
</dependency>
</dependencies>
</project>
我正在使用spark submit运行此程序(尝试使用local和yarn模式)。我没有明确包含任何jar文件来运行此代码。我一直收到错误:
线程“main”中的异常java.lang.ClassNotFoundException:com.mysql.jdbc.Driver
应该怎么做?
答案 0 :(得分:1)
这是因为您提交给群集的超级容器中的驱动程序不存在,无论它是独立群集还是纱线或介质等。
解决方案1:由于您使用的是maven,因此可以使用程序集插件构建具有所有必需依赖项的超级jar。有关maven assembly plugin here的更多信息。
解决方案2:使用--jars
选项提交应用程序时,在运行时提供这些依赖项库。我建议您在官方文档中阅读有关advanced dependencies management和submitting applications的矿石信息。
例如它看起来像这样:
./bin/spark-submit \
--class <main-class>
--master <master-url> \
--jars /path/to/mysql-connector-java*.jar
我希望这有帮助!
答案 1 :(得分:0)
Eliasah是对的。 M2Eclipse会创建一个jar文件,但它不是胖/超级jar。如果我明确安装&#34; maven程序集&#34;在Eclipse上的插件,我能够创建一个包含依赖关系jar的胖jar,因此程序运行。