使用Spark处理超大容量(500TB)数据

时间:2018-08-28 16:03:35

标签: amazon-web-services apache-spark amazon-emr

我有近500TB的大量数据,我必须对该数据进行一些ETL。

此数据在AWS S3中存在,因此我打算使用AWS EMR设置来处理此数据,但是我不确定应该选择什么配置。

  1. 我需要什么样的集群(主机和多少从机)?
  2. 我是否需要逐块处理(10GB),还是可以一次处理所有数据?
  3. Ram和存储器的主存储器和从存储器(执行者)应该是什么?
  4. 我需要哪种处理器(速度)?

基于此,我想计算AWS EMR的成本并开始处理数据

1 个答案:

答案 0 :(得分:1)

根据您的问题,您很少或没有Hadoop经验。首先接受一些培训,以便您了解Hadoop生态系统的工作方式。计划花三个月才能达到入门水平。

您需要做出很多选择,其中一些选择对于项目的成功至关重要。例如,什么语言(Scala,Java或Python)?哪些工具(Spark,Hive,Pig等)。数据的格式是什么(CSV,XML,JSON,Parquet等)。您只需要批处理还是需要近实时分析等等等。

您可能会找到其他更适用的AWS服务,例如Athena或Redshift,具体取决于数据的格式以及您要提取/处理的信息。

在AWS中有500 TB时,请在支持下打开故障单。说明您拥有什么,想要什么以及您的时间范围。可以使用SA指引您前进。