我可以理解EFS可以挂载到多个EC2实例。
是否可以从多个Hadoop集群连接到AWS EFS?
或是否附加到特定群集?
我们可以使用API连接到Hadoop集群之外的EFS吗?
答案 0 :(得分:2)
您正在为您的Hadoop群集使用 Cloudera发行版,因此您可以配置任何您想要的内容。
作为对比, Amazon EMR (AWS托管的Hadoop服务)的用户通常会选择两种类型的存储:
对于EMR(同样,不是您的情况),用户将输入和输出数据保存在Amazon S3中作为持久数据存储。这样,群集终止时数据不会丢失。好处是群集可以在不使用时关闭(因此节省资金),并且当需要更多处理能力时,可以旋转其他群集。在传统的内部部署设置中,这是不可能的,其中集群永久保持打开且无法按比例放大或缩小。
所以,回到你的Cloudera集群......你可能会在你的存储中使用 HDFS ,在这种情况下你需要连接磁盘存储。您还可以选择使用S3存储数据,这可以比磁盘存储更便宜。
是的,您可以通过NTFS附加 Amazon EFS卷,但EFS通常用于在EC2实例之间共享磁盘,这不是HDFS运行的方式(它假定本地连接的磁盘具有分布式共享发生在NodeManager级别。)
由于扩展,瞬态群集,自动部署和定期升级的优势,我建议您调查是否可以使用Amazon EMR而不是部署自己的Hadoop群集。如果您必须使用Cloudera,您将自己负责管理和维护群集。