我正在为客户端设置数据管道。我花了很多年时间处理事情的分析方面,但现在我正在与一家只有真正拥有生产环境的小商店合作。 我们做的第一件事是创建一个复制的生产实例,但我想应用一种数据仓库心态来使分析部分更容易。
我的问题归结为使用什么工具?还有,为什么?我一直在寻找像Talened for ETL这样的解决方案,但我也对Airflow非常感兴趣。问题是,我不太确定哪种更适合我的需求。我想轻松地监视和创建工作(我非常流利地编写python,因此创建Airflow作业不是问题),但也可以在数据进入时对其进行转换。
非常感谢任何建议
答案 0 :(得分:1)
请考虑talend的开源(Talend Open Studio)不提供任何监控/调度功能。它只是“代码生成器”。更复杂的基础架构是企业版的一部分。
答案 1 :(得分:1)
对于任何看到这一点的人。四年后,我们所做的是利用Airflow进行调度,Fivetran和/或Sticher进行提取和加载,以及dbt进行转换。