apache-spark - 使用Spark在S3上处理单个文件

时间：2018-04-20 08:48:52

标签： apache-spark amazon-s3 bigdata emr

我在S3上有一个文件，我希望使用多个节点使用Spark进行处理。引擎盖下的火花是如何实现的？每个工作节点是否从S3读取一部分数据（使用字节范围请求）？我试图了解在并行处理方面使用Spark on HDFS和S3之间的区别。我使用EMR时有用吗？

答案 0 :(得分：0)

引擎盖下的火花是如何实现的？

有许多公开文章解释了火花如何像this那样起作用。

我试图了解在并行处理方面使用Spark on HDFS和S3之间的区别。我使用EMR时有用吗？

这取决于您的用例。一般来说，归结为：

Vs的