我有一个从MySQL加载的spark数据集,我希望将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有没有办法实现它?
答案 0 :(得分:0)
您可能希望通过匹配行的字段来连接两个数据集。 您可以匹配这样的两个数据集并加入
val结果= DF1.join(DF2,(DF1(" USER_ID")=== DF2(" USER_ID"))&&(DF1(" SESSION_ID")=== DF2(" SESSION_ID"))&&(DF1(" DATE")=== DF2(" DATE") )) 。选择(DF1(" USER_ID&#34),DF1(" SESSION_ID&#34),DF1(" DATE&#34),DF2(" COUNTRY&#34) )