如果您为此提供解决方案将会有所帮助。
我需要一行来获取唯一的col1值。它不一定是特定col1值的第一行
我在hive中有一个表'样本'..
示例:
col1 col2 col3
1 a b
1 c d
1 e f
2 g h
2 i j
3 k l
我想获得一张这样的表
sample1:
col1 col2 col3
1 a b
2 g h
3 k l
如何使用python在spark中实现这一点?
答案 0 :(得分:1)
使用scala你可以做
val rdd: RDD[(Int, String,String)] = ...
rdd.groupBy( _._1 ).map( _._2.head )
答案 1 :(得分:0)
获取每个col1组的第一行:
select col1, first(col2), first(col3)
from sample
group by col1