在EC2上托管的Apache Spark中使用AWS EMRFS

时间:2018-12-24 14:53:10

标签: amazon-s3 kubernetes hdfs amazon-emr aws-eks

如果我在ec2(或kubernetes)上运行spark,是否可以使用s3 / emrfs代替hdfs?这个产品准备好了吗,是否使用并行机制从s3中读取/处理数据?

预先感谢

2 个答案:

答案 0 :(得分:1)

否,EMRFS仅适用于EMR,这是使S3看起来像HDFS一部分的简单方法。对于EC2,您可以连接到S3,但这要比使用EMR容易。 S3未与EC2紧密耦合。是的,应用了并行性,但不根据MR数据的位置,工作器和数据节点。

答案 1 :(得分:0)

EMR使用具有专有功能“ emrfs”的封闭源S3连接器。您不会看到源代码,无法得到其他任何人的支持,除非运行emr ,否则就无法使用它。对于独立应用程序:s3a连接器很棒,但不能完全替代HDFS