Spark SQL连接在使用java创建的两个RDD上

时间:2014-12-03 10:15:39

标签: java join apache-spark apache-spark-sql

我创建了两个RDD并使用java持久化它们。我把罐子提交给了火花大师。现在当spark shell提示我输入查询时,我在两个RDD上给出了一个SQL语句连接条件;然后它在结果集上执行collect()时抛出异常。

JOIN条件:选择TABLE_1中的a.ID作为JOIN TABLE_2 b ON a.NAME = b.NAME;

异常:resultSet.collect()

上的空指针异常

PS:我在resultSet.collect()之前检查过结果集是否为null;但它仍然进入条件并抛出NPE。我正在使用spark-sql-1.1.1 jar(最新版)。

SPARK SQL中的JOIN是否存在问题?

1 个答案:

答案 0 :(得分:0)

看起来Java spark API在某些JOIN操作中存在问题。当我使用scala尝试相同时它工作