用于对大数据进行分区的最佳AWS实例

时间:2018-10-26 06:41:03

标签: amazon-web-services amazon-ec2 amazon-emr

我现在遇到的问题是试图找到用于对大型数据进行分区(扩展到大于1TB)的最佳AWS实例。 我接收到的数据是结构化数据,希望将其按创建时的/ year / month / day /或/ year / month / day / hour进行分区。到目前为止,我已经尝试使用具有以下配置的EMR在/ year / month / day(spark.dynamicAllocation.enabled == true)中对260GB镶木地板数据进行分区:

3个r5.2xlarge(8个vCPU,64GB)-> 1小时即可写入HDFS
2 c5.4xlarge(16 vCPU,32GB)-> >>仅需1个小时即可写入HDFS(比3 r5.2xlarge慢28%)

2 r5d.4xlarge(16 vCPU,128GB)->仅需54分钟即可写入HDFS(注意,HDFS在NVMe SSD上)

这是 3 r5.2xlarge 正在产生的图形:
enter image description here

这是 2 c5.4xlarge 正在产生的图形(请注意,两个峰值是由于两次运行作业所致):
enter image description here

这是 2 r5d.4xlarge 正在产生的图形:
desc.

我可以达到约10分钟吗?如果是这样,那是否意味着要添加更多节点或其他实例类型?

0 个答案:

没有答案