是否可以将整个数据库从SQL转换为Parquet格式。由于为每个表编写模式非常耗时,因此可以使用任何简单的方法使其在集群上使用最新版本的Spark和Parquet的任何数据库上运行。每个表格的简单方法我猜应该是:
import org.apache.spark.sql.SQLContext
import java.util.HashMap
val sqlctx = new SQLContext(sc)
var options: HashMap[String, String] = new HashMap
val url_total = "jdbc:mysql://127.0.0.1:3306/DBNAME" + "?user=" + "USERNAME" + "&password=" + "PWD";
options.put("driver", "com.mysql.jdbc.Driver")
options.put("url", url_total)
options.put("dbtable", "test")
val df = sqlctx.load(source="jdbc", options)
df.toDF().saveAsParquetFile("file:///somefile.parquet")