我是Spark的新手。现在我正在尝试将两个DataFrame连接在一起。我想将我的数据帧保存在5000行中。由于我的第一个数据帧已经有5000行,我需要获得最新的4000行,因为我的第二个数据帧有1000行。有人可以帮我解决如何在第一个数据帧中获取最新4000行的数据帧吗?提前谢谢。
答案 0 :(得分:2)
我不确定你真的希望以这种方式实现,但如果你在Spark 1.5中,你可以使用monotonicallyIncreasingId做这样的事情:
val df4000 = df.sort(monotonicallyIncreasingId().desc).limit(4000)
将按数据帧中每行的ID降序排序,然后将结果限制为前4000个。
否则,您可以使用您知道的任何一致增加的列来执行相同操作。