猪的行级操作

时间:2014-07-24 12:15:21

标签: hadoop apache-pig

以下是样本表。

INPUT

id  col1    start     End          totaltime 
1   1       9:13:22   9:43:11      00:30:11
2    0.5    9:23:22   9:43:11      00:19:49
1    1      9:45:20   10:45:11    ......
2   0.5     10:50:44 11:30:01    ......

这里"开始"列排序一个。 我需要比较当前行的开始到上一行的结尾。如果条件是 然后满足第34列中的值" col1"需要为两行添加。

像这样的事情。

col1 
1.5

在Pig中是否可以进行此行级操作,在SQL行级别计算中可以使用自联接,LAG和LEAD函数。 Pig中有哪些选项,或者需要为此编写UDF?这是一个样本数据,实际数据大约是4000万行。

请建议。

0 个答案:

没有答案