我想使用Spark Java API对数据集执行左外连接。如何编写动态条件以匹配联接条件中的多个列。
我有两个数据集对象。它们都具有2列或更多列。我无法定义条件
将1列与另一列匹配的示例
dataSet = resultData.as("resultData").join(distinctData.as("distinctData"), resultData.col("A").equalTo(distinctData.col("B")), "leftouter").selectExpr(select.toString());
现在,由于存在多列,因此我无法使用Java API定义用于匹配多列的动态表达式。
答案 0 :(得分:1)
未经测试的代码-但这会从列名列表中动态生成连接条件
pos