将存储过程的结果获取到数据帧或Rdd?

时间:2017-05-15 22:42:09

标签: scala apache-spark dataframe

如何从存储过程的结果创建数据框?

  val jdbcDf = sqlContext.read.format("jdbc").options(Map(
    "driver" -> "com.microsoft.sqlserver.jdbc.SQLServerDriver",
    "url" -> jdbcSqlConn,
    "dbtable" -> "(exec aStoredProc) a" // Error
  )).load()

1 个答案:

答案 0 :(得分:3)

这在逻辑上是不可能的,因为存储过程可以返回0个或更多结果集。

如果过程生成的行数不足,则可以在驱动程序应用程序中执行查询,并且可以将结果集转换为Dataframe / Dataset。 例如,以下代码段从rw ResultSet生成Dataframe

val conn = DriverManager.getConnection("jdbc:mysql://database/schema?user=username&password=pass")
val rs = conn.createStatement.executeQuery("exec stored_procedure()")
val data = Iterator.continually((rs.next(), rs)).takeWhile(_._1).map({case (_,rs) => rs.getString("col1") -> rs.getString("col2")}).toList // get the necassary columns (here I am getting col1,col2)
sc.parallelize(data).toDF()

或者,可以修改存储过程以将结果集写入表中,并且可以读取表以创建数据帧。