AWS Spark EMR集群的实例类型

时间:2019-07-04 14:15:15

标签: apache-spark amazon-emr

我正在尝试为我的Spark EMR集群选择一个实例类型。我想知道是否有人使用仅EBS实例运行这些类型的集群?我的意思是没有本地磁盘的实例类型,例如r5.2xlarge。这对我来说是个坏主意,但我想我会在这里检查是否遗漏了任何东西。

我正在考虑将r5d.2xlarge用于主服务器和从服务器,作为对一般工作负载的计算,内存和本地存储的一般组合。听起来合理吗?我的用例是为Spark托管一个jupyter笔记本界面,该界面将进行各种各样的分析,因此我无法真正确定除描述之外的确切工作量,以供您查看,因为我最终会做临时工作分析。但是,某些分析将涉及两个或多个数据集的大型联接。

谢谢

Setjmp

2 个答案:

答案 0 :(得分:0)

如果您需要本地存储,则可以依靠r3实例,它们带有相当大的实例存储,用于HDFS,我认为它们更便宜。但是目前,您几乎可以将所有内容存储在S3上。我也建议configure适用于Jupiter笔记本的S3持久性。

答案 1 :(得分:0)

即使没有实例存储,也可以轻松附加EBS。在创建EMR群集期间,有一个步骤可以选择高级模式下的EBS数量。所以我认为存储不是问题。

enter image description here