我很新。现在,我正在尝试查看是否有可能使用不同的ec2实例类型的从属服务器设置spark集群。我要这样做的原因是,我的AWS帐户具有不同ec2实例类型的不同限制。如果我可以使用所有可用的ec2实例运行spark作业,那就太好了。我到处搜索(谷歌,stackoverflow等),但是似乎人们认为从节点的ec2类型总是相同的(尽管我发现驱动程序节点可以是不同的类型)。如果需要更多说明,请告诉我。
非常感谢您的任何建议!
答案 0 :(得分:0)
我会联系AWS并提高我的限额,以便您没有这个问题。
您将面临的问题是Hadoop将假定所有节点都具有相同的可用资源。这主要意味着内存。如果您运行大量需要大量内存的作业,您将看到持续的故障。否则,您将需要配置Hadoop以适合任何节点的较小作业。这将意味着更大的工作将永远无法进行。
如果可以选择具有相同内存的实例,则可以最大程度地减少问题。
除非您是配置Hadoop的专家(或希望成为一名),否则我不会这样做。对于每种类型的节点,请使用完全相同的实例类型。