并行执行Spark管道的自动化测试

时间:2020-02-13 21:12:59

标签: apache-spark automation automated-tests bigdata

我需要检查什么技术选项,我们将这些技术用于Spark中数据工程管道的自动化测试(QA)。

问题说明:通过自动化有效地优化BigData spark作业的功能测试。需要通过并行运行方案来检查有效的数据创建和验证

1 个答案:

答案 0 :(得分:-1)

没有可用的自动化测试工具/技术来测试数据管道。

但是,您可以创建一个自定义的spark框架,以在不同的数据区域(L0,L1,L2等)中执行数据验证。

Spark可以将不同类型的数据(csv,xml,json,文本,镶木地板等)读取到数据框中。

您可以派生逻辑来在两个数据帧之间进行比较。