EC2与AWS胶合表

时间:2019-06-20 02:24:30

标签: amazon-s3 amazon-ec2 amazon-redshift aws-glue aws-glue-data-catalog

我在各自的ec2实例上有两个mysql数据库。每个数据库在“产品”模式下都有一个表“报告”。我使用搜寻器将表模式放入名为db1的数据库的aws胶水数据目录中。然后,我使用aws胶将ec2实例中的表复制到s3存储桶中。然后,我使用redshift查询表格。我使用以下查询编辑器中的脚本从AWS爬虫获取了外部架构以进行红移。我想将两个表合并为一个表,并添加带有标记的“来源”列以指示每个记录来自的原始表。有人知道在etl过程中是否可以使用aws胶来做到这一点吗?还是可以建议其他解决方案?我知道我可以在redshift中将它们与sql结合起来,但是我的最终目标是创建一个etl管道,该管道在进行redshift之前就可以这样做。

脚本:

create external schema schema1 from data catalog 
database ‘db1’ 
iam_role 'arn:aws:iam::228276743211:role/madeup’
region 'us-west-2';

1 个答案:

答案 0 :(得分:0)

您可以使用Athena创建一个将两个表合并的视图,然后该视图将在Redshift Spectrum中可用。

CREATE OR REPLACE VIEW db1.combined_view AS
SELECT col1,cole2,col3 from db1.mysql_table_1
union all 
SELECT col1,cole2,col3 from db1.mysql_table_2
;

使用Athena(不是Redshift)运行以上