我有一个在EMR上运行的Spark作业并从S3读取数据集(嵌套的json文件),将其与其他数据集连接并显式覆盖少量S3文件。
因此,这不是标准的ETL用例,但AWS Glue可以提供相同的功能吗?如果是,胶水比EMR便宜吗?
答案 0 :(得分:0)
是的,上面的用例也应该可以使用Glue,认为你可以展平嵌套的JSON文件,并进一步处理与其他数据集连接,写回S3。
至于成本比较,请注意AWS Glue的成本比普通EMR贵一些。这是由于除了数据目录,开发端点,ETL代码生成器等功能之外,Glue被认为是无人值守并由AWS管理的原因。请参考here获取Glue&的成本比较。 EMR。