应用错误收集

我在SparkSQL中运行一个涉及shuffle的查询。 Dataframe中的分区数量理论上是无限的（实际上是数千个分区的数量）。

当我运行查询时，我遇到了“Too many open files”异常，并从Spark's mailing list得出以下答案，其中基本上说明了：

通常，如果群集中的节点具有C分配的核心，并且您使用X reducer运行作业，则Spark将并行打开C * X文件并开始编写。

直到现在，每次我偶然发现这个错误，我增加了limits.conf中打开文件的数量，我想知道什么时候会结束？从Spark UI我可以看到，默认情况下，shuffle过程有200个分区。

运行查询时运行的reducer数量是多少？是shuffle是200还是计算的> 10K？它是预定义的值吗？