Spark DataFrame通过GroupBy删除重复项首先保留

时间:2016-07-19 23:05:48

标签: apache-spark cassandra pyspark spark-dataframe

我正在使用groupBy函数从spark DataFrame中删除重复项。对于每个组,我只想采取第一行,这将是最新的一行。

我不想执行max()聚合,因为我知道结果已经存储在Cassandra中,并且希望避免不必要的计算。请参阅this approach使用pandas,它正是我所追求的,除了Spark。

df = sqlContext.read\
            .format("org.apache.spark.sql.cassandra")\
            .options(table="table", keyspace="keyspace")\
            .load()\
            .groupBy("key")\
            #what goes here?

1 个答案:

答案 0 :(得分:5)

只需要dropDuplicates就可以完成这项工作。

尝试df.dropDuplicates(Seq("column")).show

查看此question了解详情。