标签: sorting hadoop load apache-pig
让我们假设我有一个日志文件,但没有日期字段或任何其他可用于排序的字段。唯一的提示是文件中的行已经排序(但是例如我需要下降排序而不是上升) 我想做的是,在使用Pig加载时为每一行生成一个适合的ID。 我可以使用aby内置变量吗? 像RowId这样的东西?
你有什么想法吗?
此致 的Pawel
答案 0 :(得分:2)
New in Pig 0.11是RANK运算符,可以完成您需要做的事情。
RANK