apache-spark - AWS Spark EMR集群的实例类型

AWS Spark EMR集群的实例类型

时间：2019-07-04 14:15:15

标签： apache-spark amazon-emr

我正在尝试为我的Spark EMR集群选择一个实例类型。我想知道是否有人使用仅EBS实例运行这些类型的集群？我的意思是没有本地磁盘的实例类型，例如r5.2xlarge。这对我来说是个坏主意，但我想我会在这里检查是否遗漏了任何东西。

我正在考虑将r5d.2xlarge用于主服务器和从服务器，作为对一般工作负载的计算，内存和本地存储的一般组合。听起来合理吗？我的用例是为Spark托管一个jupyter笔记本界面，该界面将进行各种各样的分析，因此我无法真正确定除描述之外的确切工作量，以供您查看，因为我最终会做临时工作分析。但是，某些分析将涉及两个或多个数据集的大型联接。

谢谢

Setjmp

2 个答案:

答案 0 :(得分：0)

如果您需要本地存储，则可以依靠r3实例，它们带有相当大的实例存储，用于HDFS，我认为它们更便宜。但是目前，您几乎可以将所有内容存储在S3上。我也建议configure适用于Jupiter笔记本的S3持久性。

答案 1 :(得分：0)

即使没有实例存储，也可以轻松附加EBS。在创建EMR群集期间，有一个步骤可以选择高级模式下的EBS数量。所以我认为存储不是问题。