我希望测量我的Spark作业从外部数据库读取IO部分所花费的时间。我的代码是
val query = s"""
|(
| select
| ...
|) as project_data_tmp """.stripMargin
sparkSession.time(
sparkSession.read.jdbc(
url = msqlURLWithCreds,
table = query,
new Properties()
)
)
sparkSession.time
似乎没有做足够深入的测量sql的完整加载时间。
绿色框是我在DataFrame上的“读取和调用缓存”。
我唯一想要分裂成一个单独的舞台的方法是执行一项需要改组数据的操作;但随后又引入了自己的开销。
谢谢, 布伦特