标签: apache-spark amazon-s3 bigdata emr
我在S3上有一个文件,我希望使用多个节点使用Spark进行处理。引擎盖下的火花是如何实现的?每个工作节点是否从S3读取一部分数据(使用字节范围请求)?我试图了解在并行处理方面使用Spark on HDFS和S3之间的区别。我使用EMR时有用吗?
答案 0 :(得分:0)
引擎盖下的火花是如何实现的?
有许多公开文章解释了火花如何像this那样起作用。
我试图了解在并行处理方面使用Spark on HDFS和S3之间的区别。我使用EMR时有用吗?
这取决于您的用例。一般来说,归结为:
Vs的