如果我在ec2(或kubernetes)上运行spark,是否可以使用s3 / emrfs代替hdfs?这个产品准备好了吗,是否使用并行机制从s3中读取/处理数据?
预先感谢
答案 0 :(得分:1)
否,EMRFS仅适用于EMR,这是使S3看起来像HDFS一部分的简单方法。对于EC2,您可以连接到S3,但这要比使用EMR容易。 S3未与EC2紧密耦合。是的,应用了并行性,但不根据MR数据的位置,工作器和数据节点。
答案 1 :(得分:0)
EMR使用具有专有功能“ emrfs”的封闭源S3连接器。您不会看到源代码,无法得到其他任何人的支持,除非运行emr ,否则就无法使用它。对于独立应用程序:s3a连接器很棒,但不能完全替代HDFS