我有2个数据集,即距离和客户,想要找出客户数据集中的id存在于距离数据集的id_5中,其中id_5是id' s的数组。非常感谢您的帮助。
module MyModule {
export class MyClass {
//Do wathever you want
//Template
<td>#= Simple(Id) #</td>
}
}
function Simple(id) {
return id;
}
答案 0 :(得分:1)
使用array_contains
:
import org.apache.spark.sql.functions.expr
distDS.joinWith(custDS, expr("array_contains(id_5, cust_id)"))