我需要检查什么技术选项,我们将这些技术用于Spark中数据工程管道的自动化测试(QA)。
问题说明:通过自动化有效地优化BigData spark作业的功能测试。需要通过并行运行方案来检查有效的数据创建和验证
答案 0 :(得分:-1)
没有可用的自动化测试工具/技术来测试数据管道。
但是,您可以创建一个自定义的spark框架,以在不同的数据区域(L0,L1,L2等)中执行数据验证。
Spark可以将不同类型的数据(csv,xml,json,文本,镶木地板等)读取到数据框中。
您可以派生逻辑来在两个数据帧之间进行比较。