我有一个数据标准化过程,该过程存在于python中,但现在需要扩展。当前,此过程通过特定于作业的配置文件运行,该配置文件包含需要应用于该作业的数据表的一系列转换功能。转换功能是互斥的,可以按任何顺序应用。所有转换功能都存在于库中,并且只有在特定于作业的配置文件中列出时,才导入并应用于数据。不同的作业将在该作业的配置中列出不同的必需功能,但是所有功能都将存在于库中。
从最一般的意义上讲,AWS Glue如何处理这样的过程?我不需要一个技术示例,而只是一个高级概述。只是想知道一些选择。谢谢!
答案 0 :(得分:1)
使用 AWS胶水时,您需要考虑的最重要的一件事情是,它是具有扩展功能的无服务器,基于
如果您已经在运行脚本,并且不想使用Spark,则可以随时考虑 AWS数据管道。这是一项服务,可以通过多种方式运行数据转换,而不仅仅是Spark。不利的一面是,AWS Data Pipeline是任务驱动的,而不是数据驱动的,这意味着没有目录或架构管理。
在阅读文档时,如果要在Python上使用AWS Data Pipeline并不明显,但是该过程基本上是将shell文件分段放置到S3中,并附有设置python环境和调用脚本的说明。然后,您为管道配置调度,AWS会在需要时启动虚拟机,然后再停止。您有一个good post at stackoverflow about this