使用pig加载时为每行添加ID

时间:2013-10-31 16:01:11

标签: sorting hadoop load apache-pig

让我们假设我有一个日志文件,但没有日期字段或任何其他可用于排序的字段。唯一的提示是文件中的行已经排序(但是例如我需要下降排序而不是上升) 我想做的是,在使用Pig加载时为每一行生成一个适合的ID。 我可以使用aby内置变量吗? 像RowId这样的东西?

你有什么想法吗?

此致 的Pawel

1 个答案:

答案 0 :(得分:2)

New in Pig 0.11RANK运算符,可以完成您需要做的事情。