我正在使用groupBy
函数从spark DataFrame中删除重复项。对于每个组,我只想采取第一行,这将是最新的一行。
我不想执行max()
聚合,因为我知道结果已经存储在Cassandra中,并且希望避免不必要的计算。请参阅this approach使用pandas,它正是我所追求的,除了Spark。
df = sqlContext.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="table", keyspace="keyspace")\
.load()\
.groupBy("key")\
#what goes here?
答案 0 :(得分:5)