应用错误收集

我有一个数据标准化过程，该过程存在于python中，但现在需要扩展。当前，此过程通过特定于作业的配置文件运行，该配置文件包含需要应用于该作业的数据表的一系列转换功能。转换功能是互斥的，可以按任何顺序应用。所有转换功能都存在于库中，并且只有在特定于作业的配置文件中列出时，才导入并应用于数据。不同的作业将在该作业的配置中列出不同的必需功能，但是所有功能都将存在于库中。

从最一般的意义上讲，AWS Glue如何处理这样的过程？我不需要一个技术示例，而只是一个高级概述。只是想知道一些选择。谢谢！

使用 AWS胶水时，您需要考虑的最重要的一件事情是，它是具有扩展功能的无服务器，基于的环境。这意味着您将需要使脚本适应pySpark风格。如果可以的话，可以按照AWS Glue Documentation

上的说明使用外部python库

如果您已经在运行脚本，并且不想使用Spark，则可以随时考虑 AWS数据管道。这是一项服务，可以通过多种方式运行数据转换，而不仅仅是Spark。不利的一面是，AWS Data Pipeline是任务驱动的，而不是数据驱动的，这意味着没有目录或架构管理。

在阅读文档时，如果要在Python上使用AWS Data Pipeline并不明显，但是该过程基本上是将shell文件分段放置到S3中，并附有设置python环境和调用脚本的说明。然后，您为管道配置调度，AWS会在需要时启动虚拟机，然后再停止。您有一个good post at stackoverflow about this

AWS Glue和Python集成

1 个答案: