适用于分布式计算的Amazon EFS vs S3

时间:2019-05-09 22:46:51

标签: amazon-web-services amazon-s3 amazon-ec2 amazon-efs

我有一个大数据问题,我想在20个EC2实例上分发。我的数据集是在本地生成的,我想对其进行切片以在所有EC2实例中进行分配。我不太了解块存储,文件存储与对象存储之间的区别,但是对我来说,似乎能够在所有EC2实例上挂载EFS比将数据从S3复制到单个实例的性能更高。这个假设是否正确?如果是这样,是否可以在不使用Amazon提供的DataSync系统的情况下将数据上传到EFS?

2 个答案:

答案 0 :(得分:1)

这取决于您的特定用例和软件,但这是一些基本准则

  • S3是对象存储。 S3上的数据通过HTTP提供给您的计算机
  • EFS是使用NFSv4协议的文件系统存储

EFS比起S3昂贵得多,仅用于保存并从中读取

这是已经在Stack上进行的比较 AWS EFS vs EBS vs S3 (differences & when to use?)

答案 1 :(得分:1)

S3就像Web服务器。您可以将文件上传到其中并从中下载文件,但是不能直接在服务器上修改文件。您必须先下载它,然后进行修改,然后再放回去。

EFS,即NFSv4,就像磁盘一样。您可以直接编辑文件。它也比S3贵得多。要将文件上传到EFS,请将其安装在EC2实例(如普通磁盘)上。

也就是说,对于您尝试做的事情,正确的答案似乎就是使用EMR,例如JD D suggested