如何处理完全不同的数据源合并(Amazon服务环境中的数据仓库)?

时间:2019-06-17 15:12:22

标签: aws-lambda mapping etl aws-glue warehouse

我对数据映射有一个疑问(数据映射是将数据字段从源文件映射到其相关目标字段的过程)。

我将redshift用作仓库,并研究了fivetranstitch之类的集成服务,但不满足我的要求,即:

  • 我有按计划提取的机器日志并存储在s3(作为统一目录/存储桶)上
  • 由不同设备生成的日志使用不同的语言(即,来自两个不同设备的两个不同的列可能映射到相同的目标)
  • 更改机器日志的模式(可以添加新列,某些列会被删除...)

源数据尚未准备好用于仓库建模,因此,现在,我正在从此平面目录中为每个业务用例创建一个转换/清理作业。

业务用例可能正在生成一些报告,其中包括一些指标和kpi,所有需要的映射和转换都在aws胶ETL(pyspark)中完成 然后写入redshift,这使我可以使用dbt来生成模型。

所以我的问题是,我应该在哪里对我的数据进行所有映射?

  • 保持当前的实施方式
  • 在摄取期间,触发lambda函数以将多个源模式整合到目标中
  • 还有其他事情。

该领域是否有最佳实践可以帮助解决此问题?

我正在寻找一种解决方案,该解决方案还可以使我了解架构更改(检测更改发生的时间和位置)

0 个答案:

没有答案