我正在阅读带有钻头的s3铲斗并将其写回带有镶木地板的s3,以便使用火花数据框进行读取以进行进一步分析。 AWS emr要求我拥有至少2台核心机器。
将使用i mirco实例进行主机和内核会影响性能吗?
我没有使用hdfs,因此我想让他们使用mirco实例以节省资金。
无论如何,所有计算都将由R3.xlarge spot实例作为任务节点在内存中完成。 最后确实会在每台机器中使用多个内核吗?或者是否更好地启动4.1版本的任务节点R3.xlarge,以便自动调整大小?
答案 0 :(得分:1)
我不知道你对Spark的熟悉程度,但你需要了解一些关于核心使用情况的事情:
现在回答你的两个问题:
将使用i micro实例进行主控和内核会影响性能吗?
是否会在每台机器中使用多个内核?
您还可以阅读this有关适用于Spark 的AWS EMR群集的首选实例类型。
Spark的支持在AWS上几乎是新的,但它通常接近所有其他Spark群集设置。
我建议您阅读AWS EMR developer guide - Plan EMR Instances章以及Spark官方文档指南。