我有一些我们最初在SAS中实现的代码。我正在重写/将其移植到不同的技术,以降低成本和寻求“更好的性能”。我的第一个推测是Python(Pandas + NumPy),性能远远优于SAS,但是大部分工作仅限于1个CPU内核。
我在PySpark和Scala中重写了代码,性能更差。我注意到Spark代码中有一些大的暂停。请参阅下面的截图。
当Spark在此处理期间'暂停'时,我发现没有磁盘/ CPU活动。这一切都在一台机器上,所以不能进行网络洗牌。
有谁知道原因可能是什么,以及如何通常减少这种延迟?
由于