应用错误收集

为什么Spark应用程序未在所有节点上运行

时间：2019-07-02 16:30:20

标签： apache-spark hadoop benchmarking

我安装了以下Spark基准测试： https://github.com/BBVA/spark-benchmarks 我在8位工作人员的YARN上运行Spark，但是在工作期间（TestDFSIO）我只有2位运行的执行程序。我也将executor-cores设置为9，但只有2个正在运行。为什么会这样？

我认为问题出在YARN，因为我在Hadoop上遇到了与TestDFSIO类似（几乎）的问题。实际上，在工作开始时，只有两个节点运行，但是随后所有节点并行执行应用程序！

请注意，我没有使用HDFS进行存储！

1 个答案:

答案 0 :(得分：0)

我解决了这个问题。我所做的是将每个执行者的内核数设置为5（--executor-cores），将执行者的总数设置为23（--num-executors），默认情况下，前者为2。

为什么HDFS上运行的Spark wordcount应用程序中的位置级别都是ANY？
为什么EMR上的Yarn不会将所有节点都分配给运行Spark作业？
＆＃34; java.io.IOException：未找到类＆＃34;在长时间运行的流媒体应用程序
在群集上使用pyspark，确保使用所有节点
是否未在所有节点上创建进程？
在yarn-cluster上运行应用程序时为什么无法连接到master？
并非所有节点都用于火花作业
Spark on Yarn不使用所有节点
Spark提交的应用程序未使用Datastax Enterprise中的所有节点资源
为什么Spark应用程序未在所有节点上运行

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？