应用错误收集

如何使用不同类型的从站设置Spark集群

时间：2018-08-31 21:51:21

标签： amazon-web-services apache-spark amazon-ec2

我很新。现在，我正在尝试查看是否有可能使用不同的ec2实例类型的从属服务器设置spark集群。我要这样做的原因是，我的AWS帐户具有不同ec2实例类型的不同限制。如果我可以使用所有可用的ec2实例运行spark作业，那就太好了。我到处搜索（谷歌，stackoverflow等），但是似乎人们认为从节点的ec2类型总是相同的（尽管我发现驱动程序节点可以是不同的类型）。如果需要更多说明，请告诉我。

非常感谢您的任何建议！

1 个答案:

答案 0 :(得分：0)

我会联系AWS并提高我的限额，以便您没有这个问题。

您将面临的问题是Hadoop将假定所有节点都具有相同的可用资源。这主要意味着内存。如果您运行大量需要大量内存的作业，您将看到持续的故障。否则，您将需要配置Hadoop以适合任何节点的较小作业。这将意味着更大的工作将永远无法进行。

如果可以选择具有相同内存的实例，则可以最大程度地减少问题。

除非您是配置Hadoop的专家（或希望成为一名），否则我不会这样做。对于每种类型的节点，请使用完全相同的实例类型。