标签: apache-spark directed-acyclic-graphs
我们有这样的情况:
我们正在从10个RDBMS表中获取数据,并将它们转换为Spark中的数据帧。
使用不同的联接条件联接所有数据框,最后将最终结果加载到表中。
我们正在使用多次转换来实现最终查询,因此DAG和谱系图会很大,我们可以优化以使DAG /谱系图更小吗?
谢谢
维杰