应用错误收集

Spark如何执行I / O？

时间：2018-10-30 17:26:05

标签： apache-spark io parallel-io

据我了解，Spark使用并行IO读取文件。该结论来自其他堆栈溢出响应。

我的问题是，火花是使用独立方法还是集体方法读取数据？换句话说，每个工作人员是否都读取一组数据，还是工作人员彼此通信并进行协作以有效地读取数据？

2 个答案:

答案 0 :(得分：1)

每个 Apache Spark工人都有执行器，可以将Workers部署为分布式或独立模式。
每个Worker处理自己的数据。有关更多详细信息，请参见此answer或此link

答案 1 :(得分：1)

工人通过驾驶员沟通，每个工人处理自己的数据