我对数据映射有一个疑问(数据映射是将数据字段从源文件映射到其相关目标字段的过程)。
我将redshift用作仓库,并研究了fivetran和stitch之类的集成服务,但不满足我的要求,即:
源数据尚未准备好用于仓库建模,因此,现在,我正在从此平面目录中为每个业务用例创建一个转换/清理作业。
业务用例可能正在生成一些报告,其中包括一些指标和kpi,所有需要的映射和转换都在aws胶ETL(pyspark)中完成 然后写入redshift,这使我可以使用dbt来生成模型。
所以我的问题是,我应该在哪里对我的数据进行所有映射?
该领域是否有最佳实践可以帮助解决此问题?
我正在寻找一种解决方案,该解决方案还可以使我了解架构更改(检测更改发生的时间和位置)