Apache Spark Latency原因

时间:2017-02-03 12:00:41

标签: performance scala apache-spark pyspark

我有一些我们最初在SAS中实现的代码。我正在重写/将其移植到不同的技术,以降低成本和寻求“更好的性能”。我的第一个推测是Python(Pandas + NumPy),性能远远优于SAS,但是大部分工作仅限于1个CPU内核。

我在PySpark和Scala中重写了代码,性能更差。我注意到Spark代码中有一些大的暂停。请参阅下面的截图。

Spark Event Timeline

当Spark在此处理期间'暂停'时,我发现没有磁盘/ CPU活动。这一切都在一台机器上,所以不能进行网络洗牌。

有谁知道原因可能是什么,以及如何通常减少这种延迟?

由于

0 个答案:

没有答案