Question

我正在使用groupBy函数从spark DataFrame中删除重复项。对于每个组，我只想采取第一行，这将是最新的一行。

我不想执行max()聚合，因为我知道结果已经存储在Cassandra中，并且希望避免不必要的计算。请参阅this approach使用pandas，它正是我所追求的，除了Spark。

df = sqlContext.read\
            .format("org.apache.spark.sql.cassandra")\
            .options(table="table", keyspace="keyspace")\
            .load()\
            .groupBy("key")\
            #what goes here?

Answer 1

只需要dropDuplicates就可以完成这项工作。

尝试df.dropDuplicates(Seq("column")).show。

查看此question了解详情。

Spark DataFrame通过GroupBy删除重复项首先保留

1 个答案: