标签: apache-spark io parallel-io
据我了解,Spark使用并行IO读取文件。该结论来自其他堆栈溢出响应。
我的问题是,火花是使用独立方法还是集体方法读取数据?换句话说,每个工作人员是否都读取一组数据,还是工作人员彼此通信并进行协作以有效地读取数据?
答案 0 :(得分:1)
每个 Apache Spark工人都有执行器,可以将Workers部署为分布式或独立模式。 每个Worker处理自己的数据。 有关更多详细信息,请参见此answer或此link
答案 1 :(得分:1)
工人通过驾驶员沟通,每个工人处理自己的数据