我想知道为什么我在Zepplin段落中写的spark作业执行速度比运行spark-submit自己要快得多?
我基本上在Zepplin和spark-submit中使用相同的配置(执行程序,内存),但执行时间有很大的差异。
两者都在相同的独立火花群上运行。
有什么可以解释这种差异?
答案 0 :(得分:1)
我可以想到有两件事可能会导致这种情况。
即使您的计时折扣了火花环境(例如您只计算实际工作的时间),在zappelin中您可能会在当前工作之前完成其他工作。这些可能导致各种缓存发生。一些例子包括: