如何在Spark的数据框中添加一列,其值将取决于第二个数据框的内容?

时间:2019-03-28 19:58:19

标签: scala apache-spark dataframe

说我有一个数据框df1,它的一列是“ city”。

我需要创建一个新列,该列基本上将列出特定城市名称在第二个数据框df2中出现的次数。

谢谢!

1 个答案:

答案 0 :(得分:0)

var df3 =df2.groupBy("city").count

df1.join(df3,Seq("city"), "left")

这将为您提供答案。这里的join用作查找技术