使用Spark在S3上处理单个文件

时间:2018-04-20 08:48:52

标签: apache-spark amazon-s3 bigdata emr

我在S3上有一个文件,我希望使用多个节点使用Spark进行处理。引擎盖下的火花是如何实现的?每个工作节点是否从S3读取一部分数据(使用字节范围请求)?我试图了解在并行处理方面使用Spark on HDFS和S3之间的区别。我使用EMR时有用吗?

1 个答案:

答案 0 :(得分:0)

  

引擎盖下的火花是如何实现的?

有许多公开文章解释了火花如何像this那样起作用。

  

我试图了解在并行处理方面使用Spark on HDFS和S3之间的区别。我使用EMR时有用吗?

这取决于您的用例。一般来说,归结为:

  • 您可以选择S3 over HDFS作为持久存储选项,它可以包含超出EMR群集生命周期的数据。
  • 无限制(理论上)存储限制。
  • 高SLA和耐用性。
  • 成本。 EMR上的HDFS是短暂的。因此,您无需保持群集运行即可获得数据。 etc

Vs的

  • HDFS在I / O操作,中间/临时数据位置上更快,因为S3通信涉及通过Internet进行API调用。