Apache Pig - 想要生成具有已知基数和所有列的样本值的10 gb样本数据

时间:2015-07-22 11:00:35

标签: apache-pig

我想生成大约10 GB的样本数据,其中包含使用PIG脚本的样本值和基数的列。

实施例: -

A        B         C
1   10/10/2011  abc-xyz
2   10/11/2012  assd-asd
3   10/12/2011  asd-asd
1   10/13/2013  abc-xyz
1   10/14/2011  assd-asd

Cardinality of Column A - 8
Cardinality of Column B - Year(3) , Month(36)
Cardinality of Column C - 24

你能帮我解决这个问题。是否可以使用PIG进行这种转换。

1 个答案:

答案 0 :(得分:0)

确实可能。

您可以生成三个数据集,每个数据集包含一列,例如:

-- I assume your big dataset is named data and contains three fields: a, b, c
columnA = FOREACH data GENERATE a;
columnADistinct = DISTINCT columnA;
countA = FOREACH (GROUP columnADistinct ALL) GENERATE COUNT(columnADistinct);

其他列相同。