频率计算和其他列的探索

时间:2018-06-14 17:23:15

标签: scala apache-spark dataframe group-by frequency

所以我在Dataframe x上有这个“查询”:

x.withColumn("person",explode($"col1.col2")).groupBy("person.col3").count().sort(desc("count")).show

计算col3的频率,对其进行排序并打印包含列的表:col3,count

我还要从xcol3,count打印特定列。

我如何实现这一目标?

1 个答案:

答案 0 :(得分:0)

执行左内连接和右内连接[这不存在,只需反转数据帧]应为所提到的2个连接和原始数据帧提供相同数量的行,假设键并非总是如此空