标签: hadoop hive hiveql
我在hive中有一个大表,有1.5 bil +值。其中一列是category_id,其中包含约20个不同的值。我想对表进行采样,以便每个类别都有1 mil值。
category_id
我检查了Random sample table with Hive, but including matching rows和Hive: Creating smaller table from big table,我想出了如何从整个表中获取随机样本,但我还是无法弄清楚如何为每个样本获取样本category_id。
答案 0 :(得分:0)
我知道您想要在多个文件中对您的表进行采样。您可能需要检查Hive bucketing或Dynamic partitions以平衡多个文件夹/文件之间的记录。