应用错误收集

我有一些我们最初在SAS中实现的代码。我正在重写/将其移植到不同的技术，以降低成本和寻求“更好的性能”。我的第一个推测是Python（Pandas + NumPy），性能远远优于SAS，但是大部分工作仅限于1个CPU内核。

我在PySpark和Scala中重写了代码，性能更差。我注意到Spark代码中有一些大的暂停。请参阅下面的截图。

当Spark在此处理期间'暂停'时，我发现没有磁盘/ CPU活动。这一切都在一台机器上，所以不能进行网络洗牌。

有谁知道原因可能是什么，以及如何通常减少这种延迟？

由于