我已经配置了独立的Spark集群,该集群具有1个主服务器,1个从属服务器和Thrift服务器连接到Cassandra集群,该服务器用作Tableau应用程序的JDBC连接器。无论如何,当我启动任何查询工作程序时,从站都出现在工作程序列表中,似乎没有用作执行程序(使用了0个核)。所有工作量均由主执行器执行。同样在Thrift Web控制台中,我观察到只有一个执行程序处于活动状态。
基本上,我希望Spark集群的两个执行器上的分布式工作负载都能实现更高的性能。
从主日志中:
2019-03-26 15:36:52信息大师:54-我当选领导人!新 状态:ALIVE 2019-03-26 15:37:00信息大师:54-注册工人 worker-ip:37678,具有16核,61.8 GB RAM
来自工作人员日志:
2019-03-26 15:37:00 INFO工人:54-已成功注册 主spark:// master-hostname:7077
我的spark-defaults.conf是:
spark.driver.memory=50g
spark.driver.maxResultSize=4g
spark.sql.thriftServer.incrementalCollect=false
spark.sql.shuffle.partition=17
spark.sql.autoBroadcastJoinThreshold=10485760
spark.sql.inMemoryColumnarStorage.compressed=true
spark.sql.inMemoryColumnarStorage.batchSize=10000
spark.cores.max=32
spark.executor.cores=16
spark.memory.offHeap.enabled=true
spark.memory.offHeap.size=1g
pic1工人
pic2执行者
任何帮助都受到赞赏。
答案 0 :(得分:3)
当工人身上没有火花时,有一些主要的嫌疑人需要消除。
如果所有这些均失败,则可能需要更多上下文。