如何为蜂巢中的每个组进行采样?

时间:2016-03-09 09:14:21

标签: hadoop hive hiveql

我在hive中有一个大表,有1.5 bil +值。其中一列是category_id,其中包含约20个不同的值。我想对表进行采样,以便每个类别都有1 mil值。

我检查了Random sample table with Hive, but including matching rowsHive: Creating smaller table from big table,我想出了如何从整个表中获取随机样本,但我还是无法弄清楚如何为每个样本获取样本category_id

1 个答案:

答案 0 :(得分:0)

我知道您想要在多个文件中对您的表进行采样。您可能需要检查Hive bucketingDynamic partitions以平衡多个文件夹/文件之间的记录。