我有近500TB的大量数据,我必须对该数据进行一些ETL。
此数据在AWS S3中存在,因此我打算使用AWS EMR设置来处理此数据,但是我不确定应该选择什么配置。
基于此,我想计算AWS EMR的成本并开始处理数据
答案 0 :(得分:1)
根据您的问题,您很少或没有Hadoop经验。首先接受一些培训,以便您了解Hadoop生态系统的工作方式。计划花三个月才能达到入门水平。
您需要做出很多选择,其中一些选择对于项目的成功至关重要。例如,什么语言(Scala,Java或Python)?哪些工具(Spark,Hive,Pig等)。数据的格式是什么(CSV,XML,JSON,Parquet等)。您只需要批处理还是需要近实时分析等等等。
您可能会找到其他更适用的AWS服务,例如Athena或Redshift,具体取决于数据的格式以及您要提取/处理的信息。
在AWS中有500 TB时,请在支持下打开故障单。说明您拥有什么,想要什么以及您的时间范围。可以使用SA指引您前进。