在spark Java API中向我的DataSet添加一个新列

时间:2018-05-04 19:30:14

标签: apache-spark dataframe

我是新的Spark。 我的DataSet包含两列。我想添加第三个,即两列的总和。

我的数据集是:

+---------+-------------------+
|C1       |       C2          |
+---------+-------------------+
|   44    |                 10|
|   55    |                 10|
+---------+-------------------+

我想获得这样的DataSet:

+---------+-------------------+---------+
|C1       |       C2          |   C3    |
+---------+-------------------+---------+
|   44    |                 10|   54    |
|   55    |                 10|   65    |
+---------+-------------------+---------+

任何帮助都会得到赞赏。

1 个答案:

答案 0 :(得分:2)

正确的解决方案是:

df.withColumn("C3", df.col1("C1").plus(df.col("C2")));

df.selectExpr("*", "C1 + C2");

对于更多算术运算符,请检查Column文档中的Java-specific expression operators