我是Apache Spark的新手。
我有关于火花的问题。如果有人知道要解决,请告诉我。
[环境]
具有独立模式的集群:主节点和3个具有四个核心的工作节点
[场景]
[问题]
在上面的第3条中,我可以确认从执行日志中创建了10个分区。 但是,所有10个分区都是在一个工作节点上处理的。
关于我的集群,我已经尝试了以下带有10个分区的SparkPi示例,并在3个工作程序节点上并行化了它们。 https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/SparkPi.scala
因此,我认识到群集本身正在正常工作。
[驱动程序]
除了用于分区处理的重新分区方法外,我没有写其他特别的东西。
[问题]
CSV文件是否已分区并并行乘法?