应用错误收集

如何为蜂巢中的每个组进行采样？

时间：2016-03-09 09:14:21

标签： hadoop hive hiveql

我在hive中有一个大表，有1.5 bil +值。其中一列是category_id，其中包含约20个不同的值。我想对表进行采样，以便每个类别都有1 mil值。

我检查了Random sample table with Hive, but including matching rows和Hive: Creating smaller table from big table，我想出了如何从整个表中获取随机样本，但我还是无法弄清楚如何为每个样本获取样本category_id。

1 个答案:

答案 0 :(得分：0)

我知道您想要在多个文件中对您的表进行采样。您可能需要检查Hive bucketing或Dynamic partitions以平衡多个文件夹/文件之间的记录。