应用错误收集

时间：2018-08-28 16:03:35

标签： amazon-web-services apache-spark amazon-emr

我有近500TB的大量数据，我必须对该数据进行一些ETL。

此数据在AWS S3中存在，因此我打算使用AWS EMR设置来处理此数据，但是我不确定应该选择什么配置。

基于此，我想计算AWS EMR的成本并开始处理数据

答案 0 :(得分：1)

根据您的问题，您很少或没有Hadoop经验。首先接受一些培训，以便您了解Hadoop生态系统的工作方式。计划花三个月才能达到入门水平。

您需要做出很多选择，其中一些选择对于项目的成功至关重要。例如，什么语言（Scala，Java或Python）？哪些工具（Spark，Hive，Pig等）。数据的格式是什么（CSV，XML，JSON，Parquet等）。您只需要批处理还是需要近实时分析等等等。

您可能会找到其他更适用的AWS服务，例如Athena或Redshift，具体取决于数据的格式以及您要提取/处理的信息。

在AWS中有500 TB时，请在支持下打开故障单。说明您拥有什么，想要什么以及您的时间范围。可以使用SA指引您前进。