我有两个蜂巢表:
table_a (700e6 records, 800 partitions, 10 TB total size)
table_b (700e6 records, 800 partitions, 20 GB total size)
它们由同一列分区(table_b
包含table_a
的计算元数据。
我想加入这些表并使用dataFrame.sample(false,1E-5)
我应该
a)连接表然后随机抽样?
b)从table_a
或table_b
中抽取随机样本,然后加入?
c)从table_b
中抽取随机样本,然后广播此数据框(sc.boradcast(dataframe)
,然后加入table_a
?
我尝试了所有3个选项,都是“永远”。有更聪明的方法吗?