以下是样本表。
INPUT
id col1 start End totaltime
1 1 9:13:22 9:43:11 00:30:11
2 0.5 9:23:22 9:43:11 00:19:49
1 1 9:45:20 10:45:11 ......
2 0.5 10:50:44 11:30:01 ......
这里"开始"列排序一个。 我需要比较当前行的开始到上一行的结尾。如果条件是 然后满足第34列中的值" col1"需要为两行添加。
像这样的事情。col1
1.5
在Pig中是否可以进行此行级操作,在SQL行级别计算中可以使用自联接,LAG和LEAD函数。 Pig中有哪些选项,或者需要为此编写UDF?这是一个样本数据,实际数据大约是4000万行。
请建议。