使用apache spark绘制一个巨大连接表的随机样本

时间:2016-09-22 07:41:38

标签: apache-spark

我有两个蜂巢表:

table_a (700e6 records, 800 partitions, 10 TB total size)
table_b (700e6 records, 800 partitions, 20 GB total size)

它们由同一列分区(table_b包含table_a的计算元数据。

我想加入这些表并使用dataFrame.sample(false,1E-5)

随机抽样(比如1E-5)

我应该

a)连接表然后随机抽样?

b)从table_atable_b中抽取随机样本,然后加入?

c)从table_b中抽取随机样本,然后广播此数据框(sc.boradcast(dataframe),然后加入table_a

我尝试了所有3个选项,都是“永远”。有更聪明的方法吗?

0 个答案:

没有答案