Apache Spark SQL:自动内连接?

时间:2016-02-22 22:39:11

标签: join apache-spark apache-spark-sql

所以我有一个奇怪的情况。

每当我运行带有inner join语句的sqlContext.sql时,我实际上都会收到错误但是当我读到错误时,看起来Spark一旦尝试执行{我已经自动加入了我的两个单独的表{1}}陈述。

表1: patient_id,代码

表2: patient_id,日期

on

有关此行为的任何想法?

错误看起来很像

Select code, date from Table1 inner join Table2 on Table1.patient_id = Table2.patient_id <- exception shows the table is joined already by this point.

1 个答案:

答案 0 :(得分:0)

我认为你的节目中有拼写错误。

但是,您可以做的是:

tableOneDF.join(tableTwoDF, tableOneDF("patient_id") === tableTwoDF("patient_id"), "inner").select("code", "date") 

而tableOneDF和tableTwoDF是在两个表之上创建的两个数据帧。

试一试,看看是否还会发生。