如何在spark Dataframe中的列之间进行一些计算?

时间:2017-07-16 08:02:21

标签: apache-spark

例如,我想在另一列中加上la和lon列并输出结果。

+------+------------------+------------------+
|userid|               la |               lon|
+------+------------------+------------------+
|    u3|               2.0|               2.0|
|    u4|               1.0|               1.0|
|    u5|               2.0|               2.0|
|    u1|1.6666666666666667|2.6666666666666665|
|    u6|               1.0|               3.5|
|    u2|               3.0|               4.0|
+------+------------------+------------------+

1 个答案:

答案 0 :(得分:1)

如果您只需要将两列合计在一起,那就非常简单了:

df.withColumn("x", $"la" + $"lon")

x是新列的名称。

将列提升为2的幂:

df.withColumn("x", pow($"la" + $"lon", 2))