spark数据帧如何使用java获取最新的n行

时间:2015-12-01 03:31:32

标签: java apache-spark

我是Spark的新手。现在我正在尝试将两个DataFrame连接在一起。我想将我的数据帧保存在5000行中。由于我的第一个数据帧已经有5000行,我需要获得最新的4000行,因为我的第二个数据帧有1000行。有人可以帮我解决如何在第一个数据帧中获取最新4000行的数据帧吗?提前谢谢。

1 个答案:

答案 0 :(得分:2)

我不确定你真的希望以这种方式实现,但如果你在Spark 1.5中,你可以使用monotonicallyIncreasingId做这样的事情:

val df4000 = df.sort(monotonicallyIncreasingId().desc).limit(4000)

将按数据帧中每行的ID降序排序,然后将结果限制为前4000个。

否则,您可以使用您知道的任何一致增加的列来执行相同操作。