如何在Spark Java API中编写动态联接条件

时间:2019-04-23 10:29:55

标签: java apache-spark

我想使用Spark Java API对数据集执行左外连接。如何编写动态条件以匹配联接条件中的多个列。

我有两个数据集对象。它们都具有2列或更多列。我无法定义条件

将1列与另一列匹配的示例

dataSet = resultData.as("resultData").join(distinctData.as("distinctData"), resultData.col("A").equalTo(distinctData.col("B")), "leftouter").selectExpr(select.toString());

现在,由于存在多列,因此我无法使用Java API定义用于匹配多列的动态表达式。

1 个答案:

答案 0 :(得分:1)

未经测试的代码-但这会从列名列表中动态生成连接条件

pos