CSV文件是否已分区并并行乘法?

时间:2019-05-30 05:31:55

标签: apache-spark

我是Apache Spark的新手。

我有关于火花的问题。如果有人知道要解决,请告诉我。

[环境]

具有独立模式的集群:主节点和3个具有四个核心的工作节点

[场景]

  1. 已加载CSV文件并创建了数据集。此时,数据集的分区号为1。
  2. 数据集重新分区为10。
  3. 应在3个工作程序节点上并行化10个分区。

[问题]

在上面的第3条中,我可以确认从执行日志中创建了10个分区。 但是,所有10个分区都是在一个工作节点上处理的。

关于我的集群,我已经尝试了以下带有10个分区的SparkPi示例,并在3个工作程序节点上并行化了它们。 https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/SparkPi.scala

因此,我认识到群集本身正在正常工作。

[驱动程序]

除了用于分区处理的重新分区方法外,我没有写其他特别的东西。

[问题]

CSV文件是否已分区并并行乘法?

0 个答案:

没有答案