Question

如果您为此提供解决方案将会有所帮助。

我需要一行来获取唯一的col1值。它不一定是特定col1值的第一行

我在hive中有一个表'样本'..

示例：

col1 col2 col3

1     a    b
1     c    d
1     e    f
2     g    h
2     i    j
3     k    l

我想获得一张这样的表

sample1：

col1 col2 col3

1      a    b
2      g    h
3      k    l

如何使用python在spark中实现这一点？

Answer 1

使用scala你可以做

val rdd: RDD[(Int, String,String)] = ...
rdd.groupBy( _._1 ).map( _._2.head )

Answer 2

获取每个col1组的第一行：

select col1, first(col2), first(col3)
from sample
group by col1