Scala / Java,总结一个数据集中的两个数组列

时间:2019-06-25 17:25:12

标签: scala apache-spark

我有以下数据集,当前使用UDF汇总数组。
由于使用的是UDF,因此性能很慢。

相反,我希望使用高阶函数或spark.sql.functions或任何其他有效的方法来汇总数组。

Id  Country State    Vector_1                   Vector_2
1     US     IL   [1.0,2.0,3.0,4.0,5.0]   [5.0,5.0,5.0,5.0,5.0]

1     US     IL   [5.0,3.0,3.0,2.0,1.0]   [5.0,5.0,5.0,5.0,5.0]

2     US     TX   [6.0,7.0,8.0,9.0,1.0]   [1.0,1.0,1.0,1.0,1.0]

输出应如下所示

Id  Country State    Vector_1                      Vector_2
1     US     IL   [6.0,5.0,6.0,6.0,6.0]    [10.0,10.0,10.0,10.0,10.0] 
2     US     TX    [6.0,7.0,8.0,9.0,1.0]    [1.0,1.0,1.0,1.0,1.0]

0 个答案:

没有答案