标签: apache-spark continuous-delivery data-pipeline
我使用Spark进行数据处理,但是从数据源(主要是csv文件)开始,我想建立一个数据管道,它有正确的阶段来控制/测试/操作数据并将它们部署到不同的#34 ;阶段" (CI-CD / QA / UAT / LIVE /等)。
是否有任何有效的数据管道"蓝图"对吗?