AWS Glue与AWS EMR - 在Spark作业中覆盖S3文件

时间:2018-04-29 10:06:49

标签: apache-spark amazon-emr aws-glue

我有一个在EMR上运行的Spark作业并从S3读取数据集(嵌套的json文件),将其与其他数据集连接并显式覆盖少量S3文件。

因此,这不是标准的ETL用例,但AWS Glue可以提供相同的功能吗?如果是,胶水比EMR便宜吗?

1 个答案:

答案 0 :(得分:0)

是的,上面的用例也应该可以使用Glue,认为你可以展平嵌套的JSON文件,并进一步处理与其他数据集连接,写回S3。

至于成本比较,请注意AWS Glue的成本比普通EMR贵一些。这是由于除了数据目录,开发端点,ETL代码生成器等功能之外,Glue被认为是无人值守并由AWS管理的原因。请参考here获取Glue&的成本比较。 EMR。