应用错误收集

我有两个蜂巢表：

table_a (700e6 records, 800 partitions, 10 TB total size)
table_b (700e6 records, 800 partitions, 20 GB total size)

它们由同一列分区（table_b包含table_a的计算元数据。

我想加入这些表并使用dataFrame.sample(false,1E-5)

随机抽样（比如1E-5）

我应该

a）连接表然后随机抽样？

b）从table_a或table_b中抽取随机样本，然后加入？

c）从table_b中抽取随机样本，然后广播此数据框（sc.boradcast(dataframe)，然后加入table_a？

我尝试了所有3个选项，都是“永远”。有更聪明的方法吗？