小内存工作节点和性能

时间:2018-10-04 12:32:06

标签: apache-spark pyspark

我正在尝试在运行于清除硬件上的docker swarm之上设置一个火花集群。我总共有50个cpu内核和67Gb RAM,但是,它分布在13台物理计算机上,这意味着许多工作节点将只有1或2 Gb RAM。物理机通过单个1Gbit网络连接。

  • 我在pyspark中制作了一个简单的测试程序,该程序可以读取msgpack文件,过滤某些行并写入新文件。每个文件均为380Mb,我已经做到了,因此每个文件都位于RDD中自己的分区中。使用此设置,需要61分钟才能处理61个文件。在一台机器上用纯python在一个文件上执行相同操作的时间大约为12s-18s /文件,这意味着如果我不并行化而仅在一台机器上运行它,则将花费约18分钟。对于spark / pyspark来说,这种巨大的开销正常吗?!

  • 任何触发随机播放的内容(例如groupByKey)都会停顿下来。这是否可能受我的低内存限制或节点之间的通信限制的限制?我怎么找到这个?

在像我这样的硬件平台上运行火花是否可能/明智?

0 个答案:

没有答案