我目前正在测量特定转换操作的处理时间,例如:
val t0 = System.nanoTime()
val newdf = olddf.select($"text").filter(x=>x.contains(TEXT))
val newdf.show(10)
val t1 = System.nanoTime()
println("processing time:", t1-t0)
在这种情况下,因为转换后只显示10行,我想知道Spark是否足够智能,只需处理前10行,然后停止作业。
如果是这样,如何衡量整个任务的处理时间?
答案 0 :(得分:2)
这里要解开很多东西: