标签: apache-spark apache-spark-sql spark-dataframe google-cloud-dataproc
我使用Google dataproc并行运行一组spark-sql查询。我正在启动我自己的集群,理想情况下它应该消耗集群中的所有可用资源。我确实看到使用的vCore数量只有40个,虽然可以使用320个vCore。你知道在这种情况下如何调整性能吗?
我尝试了不同数量的核心和执行器。虽然有些应用程序正在申请中,但它似乎并没有占用额外的资源。我正在旋转20个节点的集群,但它仍然需要大量的时间进行计算。
我将分区数设置为50以限制输出文件的数量。即使我跳过设置它,它似乎也没有提高性能