我想生成大约10 GB的样本数据,其中包含使用PIG脚本的样本值和基数的列。
实施例: -
A B C
1 10/10/2011 abc-xyz
2 10/11/2012 assd-asd
3 10/12/2011 asd-asd
1 10/13/2013 abc-xyz
1 10/14/2011 assd-asd
Cardinality of Column A - 8
Cardinality of Column B - Year(3) , Month(36)
Cardinality of Column C - 24
你能帮我解决这个问题。是否可以使用PIG进行这种转换。
答案 0 :(得分:0)
确实可能。
您可以生成三个数据集,每个数据集包含一列,例如:
-- I assume your big dataset is named data and contains three fields: a, b, c
columnA = FOREACH data GENERATE a;
columnADistinct = DISTINCT columnA;
countA = FOREACH (GROUP columnADistinct ALL) GENERATE COUNT(columnADistinct);
其他列相同。