标签: amazon-ec2 apache-spark rdd
我在EC2上运行了一些Apache Spark程序。我想知道如何才能看到正在使用多少核心?我一直在使用大型多核集群,但性能并不比我的笔记本电脑好。
我已经在我的RDD上调用rdd1.repartition(sc.defaultParallelism * 3)来尝试增加分区 - 并且它将分区数量从高达2增加到6!我有1个主人和19个奴隶 - 当然这不对吗?我期待60个左右的分区。
rdd1.repartition(sc.defaultParallelism * 3)