Apache Spark RDD + persist()+懒惰

时间:2018-09-18 14:50:20

标签: scala sorting apache-spark lazy-evaluation execution-time

我正在尝试使用Apache Spark进行一些排序测试。

$mediaagentlist = "cs0400ma01
cs0400ma02" -split '[\r\n]+'

此测试的目标是记录RDD生成(零件+联合)和RDD排序的执行时间。如果我想将这段代码变成懒惰,我必须做一个 Action ,例如count()。

如何以尽可能低的成本使此测试懒惰? Spark UI是记录执行时间的最佳方法吗?

0 个答案:

没有答案