我正在运行一个简单的加载和计数功能,如下所示
my_src = LOAD'<>'使用PigStorage('|')AS (
<<方案定义>> );
my_count = FOREACH(GROUP my_src ALL)GENERATE COUNT(my_src); 存储my_count INTO'file1';
我得到的答案是大约279密排。
现在,如果我运行组 my_grp = group my_src by(key1,key2,key3,key4);
my_grp_cnt = FOREACH(GROUP my_grp ALL)GENERATE COUNT(my_grp);
存储my_count INTO'file2';
我得到的答案是572密耳的行。
我的期望是保持与减少相同的数量。我有什么东西吗? 在这里失踪?
我在CDH 5上使用PIG 0.12