我们正在使用最新的Spark版本。作为输入,我们有非常大的元组列表(800 Mio.)。我们使用具有主节点和多个工作节点的docker容器运行Pyspark程序。驱动程序用于运行程序并连接到主机。
在运行程序时,在sc.parallelize(tuplelist)行处,该程序要么退出并显示Java堆错误消息,要么退出而没有任何错误。我们不使用任何Hadoop HDFS层,也没有使用YARN。
到目前为止,我们已经考虑了这些SO帖子中提到的可能因素:
在这一点上,我们有以下问题:
答案 0 :(得分:1)
How do we know how many partitions we should use for the sc.parallelize step? What is here a good rule-of-thumb?
答案:有很多因素决定分区的数量。
1)在某些情况下,具有3-4倍核心数量的分区数将是一个很好的情况(考虑到每个分区要处理几秒钟以上)
2)分区不能太小或太大(128MB或256MB)就足够了
Do you know any (common?) mistake which may lead to the observed behevior?
可以检查执行程序的执行器内存和磁盘大小吗?
如果您可以指定有关作业的更多详细信息,例如内核数量,执行程序内存,执行程序数量和可用磁盘数量将有助于指出问题。