Spark Dataframe - 包含最新数据的唯一ID?

时间:2016-08-18 09:39:55

标签: apache-spark dataframe

我有一个像

这样的数据框
id | col1 | col2 | ... | col50
30 | new  | new  | ... | new
25 | old  | old  | ... | old
25 | old  | old  | ... | old
25 | new  | new  | ... | new
57 | old  | old  | ... | old
57 | new  | new  | ... | new

如何使用最新数据明确选择每个ID?所以输出应该是:

id | col1 | col2 | ... | col50
30 | new  | new  | ... | new
25 | new  | new  | ... | new
57 | new  | new  | ... | new

基本上我需要选择所有的distict id,但不是第一个,而是最后一个条目。

0 个答案:

没有答案