我正在尝试为我的Spark EMR集群选择一个实例类型。我想知道是否有人使用仅EBS实例运行这些类型的集群?我的意思是没有本地磁盘的实例类型,例如r5.2xlarge。这对我来说是个坏主意,但我想我会在这里检查是否遗漏了任何东西。
我正在考虑将r5d.2xlarge用于主服务器和从服务器,作为对一般工作负载的计算,内存和本地存储的一般组合。听起来合理吗?我的用例是为Spark托管一个jupyter笔记本界面,该界面将进行各种各样的分析,因此我无法真正确定除描述之外的确切工作量,以供您查看,因为我最终会做临时工作分析。但是,某些分析将涉及两个或多个数据集的大型联接。
谢谢
Setjmp