Spark的takeSample()分为两个阶段

时间:2015-06-11 16:41:32

标签: apache-spark sample

我观察到Spark 1.3.1中有趣的行为,其原因尚不清楚。

做一些像sc.textFile("...").takeSample(...)这样简单的事情总会产生两个阶段:

enter image description here

1 个答案:

答案 0 :(得分:2)

我能够重现这一点,关键是要关注details扩展。第一个和第二个在takeSample内的呼叫具有不同的行号。第一个是Line 428,这是对count的调用,因此为什么会自行触发。第二个是Line 447,这是对sample本身的调用。这可能会令人困惑,可能会被修复,但我不认为这是一个高优先级。