标量只能与PIG中的投影一起使用

时间:2012-02-02 06:44:10

标签: hadoop apache-pig

标量只能与投影一起使用我在使用foreach时遇到此错误。如何解决此错误?我怎样才能在foreach中使用LIMIT?请建议一些 提前谢谢..

编辑(Tichdroma):从评论中复制代码

A = LOAD 'part-r-00000';
G = Group A by ($0,$2 );
Y = foreach G generate FLATTEN(group), FLATTEN($1);
sorted = order Y by $0 ASC, $1 DESC;
X = foreach Y {
  lim = LIMIT sorted 3;
  generate lim;
};
Dump x;

1 个答案:

答案 0 :(得分:3)

LIMIT在FOREACH nested_op中的Pig 0.9中可用。

如果你想要每个组的前N个元素,你可能想尝试迭代每个组并单独排序和限制它们:

A = LOAD 'part-r-00000';
G = GROUP A by ($0, $2);
X = FOREACH G {
  sorted = ORDER A by $0 ASC, $1 DESC;
  lim = LIMIT sorted 3;
  GENERATE lim;
};
DUMP X;

请注意,当您只有一列可比较的值时,TOP会很有效(在这种情况下不是这样)。