火花孤立时间为从外部DB读取

时间:2017-07-07 18:17:04

标签: apache-spark apache-spark-sql

我希望测量我的Spark作业从外部数据库读取IO部分所花费的时间。我的代码是

 val query = s"""
            |(
            | select
            |  ...
            |) as project_data_tmp """.stripMargin

      sparkSession.time(
        sparkSession.read.jdbc(
          url = msqlURLWithCreds,
          table = query,
          new Properties()
        )
      )

sparkSession.time似乎没有做足够深入的测量sql的完整加载时间。

网络界面为我提供了整个舞台enter image description here

的时间安排

绿色框是我在DataFrame上的“读取和调用缓存”。

我唯一想要分裂成一个单独的舞台的方法是执行一项需要改组数据的操作;但随后又引入了自己的开销。

谢谢, 布伦特

0 个答案:

没有答案