从多个表中采样

时间:2017-03-30 07:47:03

标签: sql join apache-spark amazon-s3 sampling

我们目前正在编写相当复杂的火花作业,其中包含多个联接和跨多个表的过滤器。

我们希望用实际数据对这些作业进行单元测试,但实际数据存在于云端(S3存储桶),分布在数十个表(orc文件)上,每行数百万行。

固有的问题是,从多个表中抽样会导致样本上的连接产生无结果,因为两个采样表中都可能存在某些ID。是否有一种方法(启发式或工具)从每个表中采样数据(例如1000行),以便外键上的连接仍提供有用的行数?

这样我们就可以离线使用采样数据来对作业进行单元测试。

0 个答案:

没有答案