仅从数据框中检索与属性关联的一行

时间:2016-04-06 05:47:52

标签: apache-spark hive

如果您为此提供解决方案将会有所帮助。

我需要一行来获取唯一的col1值。它不一定是特定col1值的第一行

我在hive中有一个表'样本'..

示例:

col1 col2 col3

1     a    b
1     c    d
1     e    f
2     g    h
2     i    j
3     k    l

我想获得一张这样的表

sample1:

col1 col2 col3

1      a    b
2      g    h
3      k    l

如何使用python在spark中实现这一点?

2 个答案:

答案 0 :(得分:1)

使用scala你可以做

val rdd: RDD[(Int, String,String)] = ...
rdd.groupBy( _._1 ).map( _._2.head )

答案 1 :(得分:0)

获取每个col1组的第一行:

select col1, first(col2), first(col3)
from sample
group by col1