如何将行与spark数据集中的所有其他行进行比较?

时间:2017-03-28 10:04:32

标签: hadoop apache-spark apache-spark-sql bigdata

我有一个从MySQL加载的spark数据集,我希望将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有没有办法实现它?

1 个答案:

答案 0 :(得分:0)

您可能希望通过匹配行的字段来连接两个数据集。 您可以匹配这样的两个数据集并加入

val结果= DF1.join(DF2,(DF1(" USER_ID")=== DF2(" USER_ID"))&&(DF1(" SESSION_ID")=== DF2(" SESSION_ID"))&&(DF1(" DATE")=== DF2(" DATE") )) 。选择(DF1(" USER_ID&#34),DF1(" SESSION_ID&#34),DF1(" DATE&#34),DF2(" COUNTRY&#34) )