有一个RDD对象:
//have some data in RDD[(Int, Int)] object
(1, 2)
(3, 2)
(2, 3)
(5, 4)
(2, 7)
(5, 2)
(5, 7)
我想获得最大密钥并将其删除,最大密钥为5,所以我想要的结果是:
//a new RDD object,RDD[(Int, Int)]
(1, 2)
(3, 2)
(2, 3)
(2, 7)
你可以帮帮我吗?谢谢!
答案 0 :(得分:0)
您需要先对结果进行排序,然后使用RDD.max()
获取最高值,最后执行filter
以过滤除最高键以外的键。
或
您也可以将其注册为DataFrame
并执行简单的SQL查询以获得结果。