如何在AWS Glue作业中将多个源映射到单个目标

时间:2018-08-17 02:19:33

标签: amazon-web-services aws-glue aws-dms

我有一个MySQL数据库和一个Mongo数据库,这些数据库合起来包含200个表,我正在尝试将其连接到Glue并将一些表合并在一起,最终得到20个合并数据表以及一些过滤器和脚本,这些过滤器和脚本可以过滤掉一些表在最终需要的地方存储这些数据。

我正在使用AWS Glue做到这一点,并且在使用搜寻器生成1-1表之后,我想开始将这些表合并在一起,但是在创建作业时,我只能选择一个表作为源,这意味着我最终有200个工作。

有没有办法让我的工作指向多个源并将其映射到单个表中,如下面的屏幕截图所示?

enter image description here

我应该使用其他工具还是在其他地方执行此步骤(即使用DMS并为搜寻器生成另一个目标?)

1 个答案:

答案 0 :(得分:0)

您应该使用代码级方法来实现此目的,方法是将每个表映射到单独的数据帧/动态框架,并将这些框架连接在一起,然后使用applymapping功能将其与目标模式一起打印/映射。这是一个使用pyspark在胶水中联接或合并两个表的清晰示例:Join two data frames, select all columns from one and some columns from the other