Spark SQL查询的默认减速机数

时间:2017-10-01 18:42:08

标签: apache-spark apache-spark-sql spark-dataframe

我在SparkSQL中运行一个涉及shuffle的查询。 Dataframe中的分区数量理论上是无限的(实际上是数千个分区的数量)。

当我运行查询时,我遇到了“Too many open files”异常,并从Spark's mailing list得出以下答案,其中基本上说明了:

  

通常,如果群集中的节点具有C分配的核心,并且您使用X reducer运行作业,则Spark将并行打开C * X文件并开始编写。

直到现在,每次我偶然发现这个错误,我增加了limits.conf中打开文件的数量,我想知道什么时候会结束?从Spark UI我可以看到,默认情况下,shuffle过程有200个分区。

运行查询时运行的reducer数量是多少?是shuffle是200还是计算的> 10K?它是预定义的值吗?

0 个答案:

没有答案