Spark如何执行I / O?

时间:2018-10-30 17:26:05

标签: apache-spark io parallel-io

据我了解,Spark使用并行IO读取文件。该结论来自其他堆栈溢出响应。

我的问题是,火花是使用独立方法还是集体方法读取数据?换句话说,每个工作人员是否都读取一组数据,还是工作人员彼此通信并进行协作以有效地读取数据?

2 个答案:

答案 0 :(得分:1)

每个 Apache Spark工人都有执行器,可以将Workers部署为分布式或独立模式。
每个Worker处理自己的数据。 有关更多详细信息,请参见此answer或此link

答案 1 :(得分:1)

工人通过驾驶员沟通,每个工人处理自己的数据