使用Apache Spark将SQL Databse转换为Parquet

时间:2016-03-24 21:27:03

标签: mysql apache-spark parquet

是否可以将整个数据库从SQL转换为Parquet格式。由于为每个表编写模式非常耗时,因此可以使用任何简单的方法使其在集群上使用最新版本的Spark和Parquet的任何数据库上运行。每个表格的简单方法我猜应该是:

import org.apache.spark.sql.SQLContext
import java.util.HashMap
val sqlctx = new SQLContext(sc)
var options: HashMap[String, String] = new HashMap
val url_total = "jdbc:mysql://127.0.0.1:3306/DBNAME" + "?user=" + "USERNAME" + "&password=" + "PWD";
options.put("driver", "com.mysql.jdbc.Driver")
options.put("url", url_total)
options.put("dbtable", "test")
val df = sqlctx.load(source="jdbc", options)
df.toDF().saveAsParquetFile("file:///somefile.parquet")

0 个答案:

没有答案