是否可以从多个Hadoop集群访问AWS EFS

时间:2018-04-03 05:50:00

标签: amazon-ec2 amazon-efs

我可以理解EFS可以挂载到多个EC2实例。

是否可以从多个Hadoop集群连接到AWS EFS?

或是否附加到特定群集?

我们可以使用API​​连接到Hadoop集群之外的EFS吗?

1 个答案:

答案 0 :(得分:2)

您正在为您的Hadoop群集使用 Cloudera发行版,因此您可以配置任何您想要的内容。

作为对比, Amazon EMR (AWS托管的Hadoop服务)的用户通常会选择两种类型的存储:

  • 实例存储:这是直接连接的磁盘存储,因此速度非常快。某些实例类型(例如m3,d2)提供大磁盘存储,这对HDFS非常有用。其他实例类型提供非常快的SSD存储,但通常尺寸较小。请注意,当EMR群集终止时,Instance Store的内容将丢失。
  • EBS卷:这些是网络连接磁盘,可提供更大的存储空间(每卷最高16TB)。同样,当EMR集群终止时,内容将丢失。 EBS卷和Instance Store也可以一起使用。

对于EMR(同样,不是您的情况),用户将输入和输出数据保存在Amazon S3中作为持久数据存储。这样,群集终止时数据不会丢失。好处是群集可以在不使用时关闭(因此节省资金),并且当需要更多处理能力时,可以旋转其他群集。在传统的内部部署设置中,这是不可能的,其中集群永久保持打开且无法按比例放大或缩小。

所以,回到你的Cloudera集群......你可能会在你的存储中使用 HDFS ,在这种情况下你需要连接磁盘存储。您还可以选择使用S3存储数据,这可以比磁盘存储更便宜。

是的,您可以通过NTFS附加 Amazon EFS卷,但EFS通常用于在EC2实例之间共享磁盘,这不是HDFS运行的方式(它假定本地连接的磁盘具有分布式共享发生在NodeManager级别。)

由于扩展,瞬态群集,自动部署和定期升级的优势,我建议您调查是否可以使用Amazon EMR而不是部署自己的Hadoop群集。如果您必须使用Cloudera,您将自己负责管理和维护群集。